说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210640094.3 (22)申请日 2022.06.08 (71)申请人 城云科技 (中国) 有限公司 地址 310052 浙江省杭州市滨江区长河街 道江南大道588号恒 鑫大厦主楼17层、 18层 (72)发明人 毛云青 葛俊 王国梁 曹喆  (74)专利代理 机构 杭州汇和信专利代理有限公 司 33475 专利代理师 董超 (51)Int.Cl. G06F 40/194(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种文本相似度识别方法、 装置及应用 (57)摘要 本发明提供了一种判断文本相似度的方法, 基于预训练模 型构建算法模型, 采用主辅学习的 方法进行学习; 在所述算法模型的自注意计算过 程中引入关键词掩码矩阵, 关键词掩码矩阵和注 意力权值矩阵求和后得到权值矩阵, 提高关键词 在句子中的注意力, 得到文本的词汇权值, 采用 基于词汇权值的词匹配方法来计算两个句子的 文本相似度, 并依据短句与长句的比值进行排 序, 本方案不会因为句子描述长短的问题存在排 序偏差, 可以提高句子向量在相似度计算过程中 的准确率。 权利要求书2页 说明书9页 附图4页 CN 114881003 A 2022.08.09 CN 114881003 A 1.一种文本相似度识别方法, 其特 征在于, 包括以下步骤: 获取至少两待识别文本, 将至少两所述待识别文本输入已训练得到的算法模型中得到 识别结果, 基于所述识别结果计算所述待识别文本的相似度; 其中所述 算法模型的构建过程如下: 获取训练样本: 获取由至少两相似文本组成的文本数据对作为主任务训练样本, 并提 取每一所述相似文本的关键词及关键词在所述相似文本的关键词位置作为辅助任务训练 样本; 将所述训练样本输入算法模型中进行训练, 所述训练样本输入算法模型的roberta预 训练模型中得到输出特征, 所述输出特征作为句子 向量, 且所述输出特征全连接后经过全 局池化处理并结合sigmoid函数得到词汇权值; 所述输出特征全连接后通过分类处理后得 到关键词位置, 所述关键词位置、 所述词汇权值和所述句子向量作为识别结果输出; 其中所 述roberta预训练模型的每一层特征提取层的自注意计算机制中增加关键词掩码矩阵, 所 述主任务训练样本输入到所述自注意力机制中输出注意力权值矩阵, 所述关键词掩码矩阵 由所述辅助任务训练样本转换得到, 所述注意力权值矩阵和所述关键词掩码矩阵融合得到 所述特征提取层的输出向量。 2.根据权利要求1所述的文本相似度识别方法, 其特征在于, 在 “获取训练样本 ”步骤中 包括: 对所述训练样本进行数据增强操作: 在至少一相似文本的关键词位置后的位置内插 入相同的关键词, 得到增强的辅助任务训练样 本; 对至少一相似文本进 行字向量编码后, 保 持句首标志符、 结尾标志符以及填充标志符在句向量中顺序不变, 随机打乱所述相似文本 的其他字向量的排序位置, 得到新的主任务训练样本 。 3.根据权利要求1所述的文本相似度识别方法, 其特征在于, 所述关键词掩码矩阵是根 据关键词的位置信息给定的, 在所述关键词掩码矩阵中关键词的位置信息参数值设置为 1, 其余位置信息参数值设置为0 。 4.根据权利要求1所述的文本相似度识别方法, 其特征在于, “所述注意力权值矩阵和 所述关键词掩码矩阵融合得到所述特征提取层的输出向量 ”包括步骤: 主任务训练样本作 为输入每一层特征提取层的输入向量, 所述输入向量进行不同层的线性变化分别得到第一 特征向量第二特征向量和 第三特征向量; 其中第一特征向量和 第二特征向量的倒置矩阵点 乘后被维度归一得到归一向量, 所述归一向量和关键词掩码矩阵进行元素相加后并对相加 后的特征值计算激活函数得到激活特征值, 激活特征值和 第三特征向量点乘 得到该层特征 输出层的输出向量。 5.根据权利要求1所述的文本相似度识别方法, 其特征在于, 所述roberta预训练模型 性采用12 个transformer的编码器层作为特征提取层, 对应的, 有12个解码器层作为特征输 出层, 每一个编码器层的输入是前一个编码器层的输出, 每一个小解码器层的输入是它的 前一个解码器层的输出和整个编码部分的输出。 6.基于权利要求1所述的文本相似度识别方法, 其特征在于, “基于所述识别结果计算 所述待识别文本的相似度 ”包括步骤: 计算所述待识别文本中的短句和长句的相对相似度, 若短句相对长句的相似度大于长句相对短句的相对相似度, 则选用短句相对长度的相对相 似度。 7.一种判断同事件的方法, 包括以下步骤: 自所述待识别文本 中选定基准文本, 基于和权 利 要 求 书 1/2 页 2 CN 114881003 A 2所述基准文本的相似度自高至低排序其他待识别文本, 选择排序靠前的所述待识别文本作 为同事件文本。 8.根据权利要求7所述的判断同事件的方法, 所述待识别文本选自同一来源地址; 或者 选择和所述基准文本来自于同一 来源地址的排序靠前的所述待识别文本作为同事 件文本。 9.一种判断文本相似度的装置, 其特 征在于, 包括: 获取模块: 获取由至少两相似文本组成的文本数据对作为主任务训练样本, 并提取每 一所述相似文本的关键词及关键词在所述相似句子的关键词位置作为辅助任务训练样本; 计算模块: 将至少两所述待识别文本输入已训练得到的算法模型中得到识别结果, 基 于所述识别结果计算所述待识别文本的相似度。 10.基于权利要求9所述的判断文本相似度的装置, 其特征在于, 在计算模块后添加一 个判断模块, 即可生成一个 基于文本相似度判断同事 件的装置, 其判断模块作用为: 判断模块: 自所述待识别文本中选定基准文本, 基于和所述基准文本的相似度自高至 低排序其他待识别文本, 所述待识别文本选 自同一来源地址; 或者选择和所述基准文本来 自于同一 来源地址的排序靠前的所述待识别文本作为同事 件文本。 11.一种电子装置, 包括存储器和 处理器, 其特征在于, 所述存储器中存储有计算机程 序, 所述处理器被设置为运行所述计算机程序以执行权利要求1 ‑6任一所述的判断文本相 似度方法或权利要求7、 8任一所述的判断同事 件的方法。 12.一种可读存储介质, 其特征在于, 所述可读存储介质中存储有计算机程序, 所述计 算机程序包括用于控制过程以执行过程的程序代码, 所述过程包括根据权利要求1 ‑6任一 所述的判断文本相似度方法或权利要求7、 8任一所述的判断同事 件的方法。权 利 要 求 书 2/2 页 3 CN 114881003 A 3

.PDF文档 专利 一种文本相似度识别方法、装置及应用

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本相似度识别方法、装置及应用 第 1 页 专利 一种文本相似度识别方法、装置及应用 第 2 页 专利 一种文本相似度识别方法、装置及应用 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:09:19上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。