说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210612069.4 (22)申请日 2022.05.31 (71)申请人 西安金讯通软件技 术有限公司 地址 710075 陕西省西安市高新区丈 八街 办科技二路66号佳贝大厦5 01室 (72)发明人 韩召宁 赵国帅 罗一玲 钱学明  (74)专利代理 机构 西安通大专利代理有限责任 公司 6120 0 专利代理师 高博 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 40/295(2020.01) G06F 40/242(2020.01) G06F 16/335(2019.01) (54)发明名称 一种文本相似度计算去重方法、 系统、 介质 及设备 (57)摘要 本发明公开了一种文本相似度计算去重方 法、 系统、 介质及设备, 将热线文本数据集导入数 据库, 并输入训练好的模型中进行特征提取, 特 征融合和特征增强, 得到数据的最终特征并序列 化保存; 输入待计算数据到模型中提取最终特 征; 与相应日期内的热线文本数据进行余弦相似 度计算, 得到相似度结果; 输 出排名top50的相似 度结果, 进行去重。 本发明面向政务服务便民热 线, 通过模 型将热线文本内容的最终句子特征提 取出来进行相似度计算去重, 还提供了外界调用 的途径, 可通过四个接口操作模 型实现不同的模 型功能, 便 于操作, 实用性强, 适用于热线领域。 权利要求书2页 说明书12页 附图2页 CN 114818986 A 2022.07.29 CN 114818986 A 1.一种文本相似度计算去重方法, 其特 征在于, 包括以下步骤: S1、 对热线文本数据集进行预处理, 得到包含工单编号、 人物、 地点、 日期、 手机号码和 文本内容的数据集; S2、 将步骤S1得到的数据集输入sbert+名词实体识别 +关键词提取+wor d2vec模型中, 结合去停用 词和自定义词库进行初始化, 获得文本数据的特征向量, 并对文本数据进行名 词实体抽取和关键词抽取, 得到每一条 热线文本数据的文本特 征向量; S3、 提取新文本的特征, 输入新的热线文本到sbert+名词实体识别+关键词提取+ word2vec模型中, 获得新文本的最终特 征向量; S4、 从步骤S2得到的每一条热线文本数据的文本特征向量中筛选设定日期内数据量的 特征向量, 将步骤S3得到的新文本的最终特征向量与特征向量进行余弦相似度计算, 得到 文本相似度结果; S5、 基于步骤S4得到的文本相似度结果, 将相似度排名前50的热线文本数据输出, 实现 文本相似度计算去重 。 2.根据权利要求1所述的文本相似度计算去重方法, 其特征在于, 步骤S1中, 数据集格 式为utf‑8编码的csv文件, 工单编号和热线 文本内容 为必填属性。 3.根据权利要求1所述的文本相似度计算去重方法, 其特征在于, 步骤S2中, 输入 sentence句子到sbert+名词实体识别+关键词提取+word2vec模型中, sbert模型使用平均 池化策略, 将均值后的向量作为句向量Vs, 得到全局特征, word2vec模型获得名词词向量Vn, 通过TFIDF算法获得关键词词向量Vk, 得到局部特征, 将名词词向量Vn和关键词词向量Vk进 行平均, 再和句向量Vs进行平均, 得到最后的句向量Vn×d, n为热线文本数据集中的数据量, d 为向量维度, 将所有热线文本数据的特征向量进行序列化保存, 使用pickle模块dump序列 化数据所有热线文本的特征向量, 将特征向量的结果数据流写入文件对象, 使用load反序 列化对象, 还原得到每一条 热线文本数据的文本特 征向量。 4.根据权利要求1所述的文本相似度计算去重方法, 其特征在于, 步骤S2中, 对文本数 据进行名词实体抽取 具体为: 使用命名实体识别识别出热线文本中的所有实体, 通过自定义词典可识别出正确的实 体, 并抽取 出所有名词实体, 实现特 征增强。 5.根据权利要求1所述的文本相似度计算去重方法, 其特征在于, 步骤S2中, 对文本数 据进行关键词抽取 具体为: 使用TF‑IDF算法进行关键词提取, 通过语料库得出逆文档频率IDF值, 使用热线文本语 料库对逆文档 频率IDF的文本语料库进行训练, 得到每个词的IDF值, 输入待提取关键词的 文本, 计算得到词频TF, 得到最终的TF ‑IDF值, 将所有词排序得到关键词集合并返回10个 TFIDF权重最大的关键词, 实现热线 文本的特 征增强。 6.根据权利要求5所述的文本相似度计算去重方法, 其特征在于, 词频TF和逆文档频率 IDF具体为: 权 利 要 求 书 1/2 页 2 CN 114818986 A 27.根据权利要求1所述的文本相似度计算去重方法, 其特征在于, 步骤S4中, 两个文本 间的余弦相似度simi larity计算如下: 其中, A为文本1的特征向量, B为文本2的特征向量, n为特征向量的维度, Ai为向量A的第 i个元素, Bi为向量B的第i个元 素, θ 为两个向量间的夹角。 8.一种文本相似度计算去重系统, 其特 征在于, 包括: 数据模块, 对热线文本数据集进行预处理, 得到包含工单编号、 人物、 地点、 日期、 手机 号码和文本内容的数据集; 第一特征模块, 将数据模块得到的数据集输入sbert+名词实体识别+关键词提取+ word2vec模型中, 结合去停用词和自定义词 库进行初始 化, 获得文本数据的特征向量, 并对 文本数据进行名词实体抽取和关键词抽取, 得到每一条 热线文本数据的文本特 征向量; 第二特征模块, 提取新文本的特征, 输入新的热线文本到sbert+名词实体识别+关键词 提取+word2vec模型中, 获得新文本的最终特 征向量; 计算模块, 从第一特征模块得到的每一条热线文本数据的文本特征向量中筛选设定日 期内数据量的特征向量, 将第二特征模块得到的新文本的最 终特征向量与特征向量进 行余 弦相似度计算, 得到文本相似度结果; 相似度模块, 基于计算模块得到的文本相似度结果, 将相似度排名前50的热线文本数 据输出, 实现文本相似度计算去重 。 9.一种存储一个或多个程序的计算机可读存储介质, 其特征在于, 所述一个或多个程 序包括指令, 所述指令当由计算设备执行时, 使得所述计算设备执行根据权利要求1至7所 述的方法中的任一方法。 10.一种计算设备, 其特 征在于, 包括: 一个或多个处理器、 存储器及一个或多个程序, 其中一个或多个程序存储在所述存储 器中并被配置为所述一个或多个处理器执行, 所述一个 或多个程序包括用于执行根据权利 要求1至7 所述的方法中的任一方法的指令 。权 利 要 求 书 2/2 页 3 CN 114818986 A 3

.PDF文档 专利 一种文本相似度计算去重方法、系统、介质及设备

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本相似度计算去重方法、系统、介质及设备 第 1 页 专利 一种文本相似度计算去重方法、系统、介质及设备 第 2 页 专利 一种文本相似度计算去重方法、系统、介质及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:09:18上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。