专利 一种文本相似度计算去重方法、系统、介质及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210612069.4 (22)申请日 2022.05.31 (71)申请人西安金讯通软件技术有限公司地址 710075 陕西省西安市高新区丈八街办科技二路66号佳贝大厦5 01室 (72)发明人韩召宁　赵国帅　罗一玲　钱学明　 (74)专利代理机构西安通大专利代理有限责任公司 6120 0 专利代理师高博 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 40/295(2020.01) G06F 40/242(2020.01) G06F 16/335(2019.01) (54)发明名称一种文本相似度计算去重方法、系统、介质及设备 (57)摘要本发明公开了一种文本相似度计算去重方法、系统、介质及设备，将热线文本数据集导入数据库，并输入训练好的模型中进行特征提取，特征融合和特征增强，得到数据的最终特征并序列化保存；输入待计算数据到模型中提取最终特征；与相应日期内的热线文本数据进行余弦相似度计算，得到相似度结果；输出排名top50的相似度结果，进行去重。本发明面向政务服务便民热线，通过模型将热线文本内容的最终句子特征提取出来进行相似度计算去重，还提供了外界调用的途径，可通过四个接口操作模型实现不同的模型功能，便于操作，实用性强，适用于热线领域。权利要求书2页说明书12页附图2页 CN 114818986 A 2022.07.29 CN 114818986 A 1.一种文本相似度计算去重方法，其特征在于，包括以下步骤： S1、对热线文本数据集进行预处理，得到包含工单编号、人物、地点、日期、手机号码和文本内容的数据集； S2、将步骤S1得到的数据集输入sbert+名词实体识别 +关键词提取+wor d2vec模型中，结合去停用词和自定义词库进行初始化，获得文本数据的特征向量，并对文本数据进行名词实体抽取和关键词抽取，得到每一条热线文本数据的文本特征向量； S3、提取新文本的特征，输入新的热线文本到sbert+名词实体识别+关键词提取+ word2vec模型中，获得新文本的最终特征向量； S4、从步骤S2得到的每一条热线文本数据的文本特征向量中筛选设定日期内数据量的特征向量，将步骤S3得到的新文本的最终特征向量与特征向量进行余弦相似度计算，得到文本相似度结果； S5、基于步骤S4得到的文本相似度结果，将相似度排名前50的热线文本数据输出，实现文本相似度计算去重。 2.根据权利要求1所述的文本相似度计算去重方法，其特征在于，步骤S1中，数据集格式为utf‑8编码的csv文件，工单编号和热线文本内容为必填属性。 3.根据权利要求1所述的文本相似度计算去重方法，其特征在于，步骤S2中，输入 sentence句子到sbert+名词实体识别+关键词提取+word2vec模型中， sbert模型使用平均池化策略，将均值后的向量作为句向量Vs，得到全局特征， word2vec模型获得名词词向量Vn，通过TFIDF算法获得关键词词向量Vk，得到局部特征，将名词词向量Vn和关键词词向量Vk进行平均，再和句向量Vs进行平均，得到最后的句向量Vn×d， n为热线文本数据集中的数据量， d 为向量维度，将所有热线文本数据的特征向量进行序列化保存，使用pickle模块dump序列化数据所有热线文本的特征向量，将特征向量的结果数据流写入文件对象，使用load反序列化对象，还原得到每一条热线文本数据的文本特征向量。 4.根据权利要求1所述的文本相似度计算去重方法，其特征在于，步骤S2中，对文本数据进行名词实体抽取具体为：使用命名实体识别识别出热线文本中的所有实体，通过自定义词典可识别出正确的实体，并抽取出所有名词实体，实现特征增强。 5.根据权利要求1所述的文本相似度计算去重方法，其特征在于，步骤S2中，对文本数据进行关键词抽取具体为：使用TF‑IDF算法进行关键词提取，通过语料库得出逆文档频率IDF值，使用热线文本语料库对逆文档频率IDF的文本语料库进行训练，得到每个词的IDF值，输入待提取关键词的文本，计算得到词频TF，得到最终的TF ‑IDF值，将所有词排序得到关键词集合并返回10个 TFIDF权重最大的关键词，实现热线文本的特征增强。 6.根据权利要求5所述的文本相似度计算去重方法，其特征在于，词频TF和逆文档频率 IDF具体为：权　利　要　求　书 1/2 页 2 CN 114818986 A 27.根据权利要求1所述的文本相似度计算去重方法，其特征在于，步骤S4中，两个文本间的余弦相似度simi larity计算如下：其中， A为文本1的特征向量， B为文本2的特征向量， n为特征向量的维度， Ai为向量A的第 i个元素， Bi为向量B的第i个元素， θ 为两个向量间的夹角。 8.一种文本相似度计算去重系统，其特征在于，包括：数据模块，对热线文本数据集进行预处理，得到包含工单编号、人物、地点、日期、手机号码和文本内容的数据集；第一特征模块，将数据模块得到的数据集输入sbert+名词实体识别+关键词提取+ word2vec模型中，结合去停用词和自定义词库进行初始化，获得文本数据的特征向量，并对文本数据进行名词实体抽取和关键词抽取，得到每一条热线文本数据的文本特征向量；第二特征模块，提取新文本的特征，输入新的热线文本到sbert+名词实体识别+关键词提取+word2vec模型中，获得新文本的最终特征向量；计算模块，从第一特征模块得到的每一条热线文本数据的文本特征向量中筛选设定日期内数据量的特征向量，将第二特征模块得到的新文本的最终特征向量与特征向量进行余弦相似度计算，得到文本相似度结果；相似度模块，基于计算模块得到的文本相似度结果，将相似度排名前50的热线文本数据输出，实现文本相似度计算去重。 9.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1至7所述的方法中的任一方法。 10.一种计算设备，其特征在于，包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1至7 所述的方法中的任一方法的指令。权　利　要　求　书 2/2 页 3 CN 114818986 A 3

专利 一种文本相似度计算去重方法、系统、介质及设备

专利一种文本相似度计算去重方法、系统、介质及设备