说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210674200.X (22)申请日 2022.06.15 (71)申请人 安徽省交通 规划设计 研究总院股份 有限公司 地址 230088 安徽省合肥市高新区香 樟大 道180号 申请人 公路交通节能与环保技 术及装备交 通运输行业研发中心 (72)发明人 田一鸣 徐寒亭 朱震 赵翔  林潇 胡松  (74)专利代理 机构 合肥中博知信知识产权代理 有限公司 34142 专利代理师 杨来宝 (51)Int.Cl. G06F 16/33(2019.01)G06F 16/31(2019.01) G06F 16/35(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01) (54)发明名称 一种基于NLP技术实现文本数据治理预处理 的方法 (57)摘要 本发明公开了一种基于NLP技术实现文本数 据治理预处理的方法, 包括以下步骤: S1、 收集文 档集合; S2、 基于业务关键字从步骤S1得到的文 档集合中得到目标集合; S3、 基于NLP技术对业务 关键字和目标集合进行语义分析得到分析结果; S4、 根据步骤S3得到的分析结果对所有 业务数据 进行分类; S5、 基于NLP技术对各类业务数据分别 进行特征提取和信息抽取; S6、 对步骤S6提取的 特征和抽取的信息进行有效性处理, 根据有效性 处理结果保留或剔除对应的业务数据。 本发明提 出一种基于 人工智能领域中的NLP技术实现文本 数据治理预处理的方法, 能够大大提高海量数据 分类和数据提取的速度和效率, 同时能够大幅提 高准确率。 权利要求书2页 说明书4页 附图1页 CN 115114399 A 2022.09.27 CN 115114399 A 1.一种基于N LP技术实现文本数据治理预处 理的方法, 其特 征在于, 包括以下步骤; S1、 收集多个分别由业 务数据集 合形成的文档, 由此 得到文档集 合; S2、 对步骤S1得到的文档集 合中的业 务数据进行业 务关键字查找, 得到目标集 合; S3、 基于N LP技术对所述 业务关键字和目标集 合进行语义分析, 得到分析 结果; S4、 根据步骤S3得到的分析结果, 结合预设的符合业务特点的规则, 对所述目标集合中 的所有业 务数据进行分类; S5、 基于N LP技术对步骤S4分类后的各类业 务数据, 分别进行 特征提取和信息抽取; S6、 对步骤S5提取的特征和抽取的信息进行有效性处理, 若通过有效性处理, 则保留对 应的业务数据, 若未通过有效性处 理则剔除对应的业 务数据。 2.根据权利要求1所述的一种基于NLP技术实现数据治理预处理的方法, 其特征在于, 步骤S1中所述的业 务数据集 合仅包括文本数据集 合, 由此形成的文档仅包括文本文档。 3.根据权利要求1所述的一种基于NLP技术实现文本数据治理预处理的方法, 其特征在 于, 步骤S2中的业务关键字查找仅包括对文字文档进行整合, 整合方法包括基于关键字查 询规则的分箱法和基于数据集 合分组的聚类法。 4.根据权利要求1所述的一种基于NLP技术实现文本数据治理预处理的方法, 其特征在 于, 步骤S2中, 所述业务关键字的类型包括汉字、 数字、 英文、 特定符号中的至少一种或多种 的组合。 5.根据权利要求1所述的一种基于NLP技术实现文本数据治理预处理的方法, 其特征在 于, 步骤S3中的语义分析包括关键字匹配分析和文本语义识别分析, 由此得到的分析结果 包括关键 字匹配结果和语义识别结果。 6.根据权利要求5所述的一种基于NLP技术实现文本数据治理预处理的方法, 其特征在 于, 步骤S3中的语义分析还包括依存句法分析, 由此得到的分析结果还包括依存句法分析 结果。 7.根据权利要求6所述的一种基于NLP技术实现文本数据治理预处理的方法, 其特征在 于, 步骤S4中预设的符合业务特点的规则包括关键字匹配度规则、 依存句法关系规则、 文本 语义结果 规则中的至少一种或多种的结合, 其中: 关键字匹配规则是指根据指定业务中的文本特点, 提取出符合业务特点的关键字, 并 以符合这些关键 字的文本数据作为 一类; 依存句法关系规则是指根据指定业务中的文本特点, 提取出业务文本中的语法结构, 以及语句之间的相互关系, 并将其表示 为容易理解的结构形式; 文本语义结果规则是指运用NLP技术对指定业务文本进行语义识别, 得到语义识别结 果, 并结合业务文本特点提取出文本中重要信息, 包括数字、 日期、 业务名称、 专有号码业务 相关的数据。 8.根据权利要求1所述的一种基于NLP技术实现文本数据治理预处理的方法, 其特征在 于, 步骤S5中, 从各类业务数据进行特征提取和信息抽取 的对象是根据每个业务特点针对 性确定的。 9.根据权利要求1所述的一种基于NLP技术实现文本数据治理预处理的方法, 其特征在 于, 步骤S6中的数据有效性处 理包括空值校验、 值 域校验、 格式校验、 唯一 性约束校验。 10.根据权利要求1所述的一种基于NLP技术实现文本数据治理预处理的方法, 其特征权 利 要 求 书 1/2 页 2 CN 115114399 A 2在于, 步骤S6中, 提取的数据包括对原始文档和实时数据进行提取, 并根据名称和时间排 列, 其中原始文档是指已经保存在存储区域的文档, 实时数据是指直接从业务系统中获取 的系统实时产生的业 务数据。权 利 要 求 书 2/2 页 3 CN 115114399 A 3

.PDF文档 专利 一种基于NLP技术实现文本数据治理预处理的方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于NLP技术实现文本数据治理预处理的方法 第 1 页 专利 一种基于NLP技术实现文本数据治理预处理的方法 第 2 页 专利 一种基于NLP技术实现文本数据治理预处理的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:07:12上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。