说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210761998.1 (22)申请日 2022.06.29 (71)申请人 中译语通科技股份有限公司 地址 100000 北京市石景山区石景山路20 号中铁建 设大厦 (72)发明人 李欣杰 宗浩 施艳蕊  (74)专利代理 机构 北京绘聚高科知识产权代理 事务所(普通 合伙) 11832 专利代理师 罗硕 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06K 9/62(2022.01) G06F 40/30(2020.01) G06N 3/08(2006.01) (54)发明名称 一种基于汉字形音义多元知识的文本语义 匹配方法和系统 (57)摘要 本发明公开一种基于汉字形音义多元知识 的文本语义匹配方法和系统, 其中, 文本语义匹 配方法包括: 获取一对比较文本, 对其中每个文 本的形音义进行解析, 得到每个文本的汉字信 息、 拼音信息和释义信息; 使用上述信息对一对 比较文本进行形音义多元知识的融合, 得到文本 的形音义联合表示; 使用一对比较文本的分类标 签融合形音义联合表示, 得到一对比较文本的形 音义‑标签联合表示; 将形音 义‑标签联合表示输 入至神经网络预测模型; 根据分类标签计算得到 一对比较文本的监督标签; 使用监督标签验证神 经网络预测模 型; 使用训练成功的神经网络预测 模型预测得到一对比较文本的文本语义匹配关 系。 本发明的技术方案能解决现有技术忽略汉字 的潜在语义信息的问题。 权利要求书2页 说明书12页 附图6页 CN 115098637 A 2022.09.23 CN 115098637 A 1.一种基于汉字形音义多元知识的文本语义匹配方法, 其特 征在于, 包括: 获取输入的一对比较文本, 分别对所述一对比较文本中每个文本的形音义进行解析, 得到每个文本的汉字信息、 拼音信息和释义信息; 使用所述汉字信息、 拼音信息和释义信息, 对所述一对比较文本进行形音义多元知识 的融合, 得到所述文本的形音义联合表示; 使用所述一对比较文本的分类标签融合所述文本的形音义联合表示, 得到所述一对比 较文本的形音义 ‑标签联合表示; 将所述形音义 ‑标签联合表示输入至神经网络预测模型进行分类训练; 根据所述分类标签, 计算得到所述 一对比较文本的监 督标签; 使用所述 监督标签验证所述神经网络预测模型; 使用训练成功的所述神经网络预测模型, 预测得到一对比较文本的文本语义匹配关 系。 2.根据权利要求1所述的文本语义匹配方法, 其特征在于, 在所述得到一对比较文本中 每个文本的汉字信息、 拼音信息和释义信息的步骤之后, 所述方法还 包括: 分别使用BERT算法对所述汉字信息和拼音信 息进行编码, 得到编码后的汉字信息和拼 音信息; 使用词级粒度语义差异信 息捕获算法, 获取所述一对比较文本的词 级粒度的语义差异 信息; 使用所述语义差异新获取所述一对比较文本的释义信息, 对所述释义信息进行编码, 得到编码后的释义信息 。 3.根据权利要求1所述的文本语义匹配方法, 其特征在于, 在所述使用分类标签融合所 述文本的形音义联合表示的步骤之前, 所述方法还 包括: 分别获取 所述一对比较文本中每 个文本的分类标签; 分别对每 个文本的分类标签进行编码; 使用编码后的每 个文本的分类标签, 得到所述 一对比较文本的分类标签。 4.根据权利要求1所述的文本语义匹配方法, 其特征在于, 所述使用一对比较文本的分 类标签融合所述文本的形音义联合表示, 得到所述一对比较文本的形音义 ‑标签联合表示 的步骤, 包括: 对所述分类标签进行编码, 得到所述分类标签对应的类别标签嵌入表示; 将所述类别标签嵌入表示与 所述文本的形音义联合表示进行融合, 得到所述一对比较 文本的形音义 ‑标签联合表示。 5.根据权利要求1所述的文本语义匹配方法, 其特征在于, 所述将形音义 ‑标签联合表 示输入至神经网络预测模型进行分类训练的步骤, 包括: 将所述文本的形音义联合表示输入至所述神经网络预测模型的全连接层, 得到隐藏特 征之间的关联表示; 使用所述神经网络预测模型的线性分类器对所述隐藏特征之间的关联表示进行分类, 得到类别匹配标签。 6.根据权利要求1所述的文本语义匹配方法, 其特征在于, 所述根据分类标签, 计算得 到所述一对比较文本的监 督标签的步骤, 包括:权 利 要 求 书 1/2 页 2 CN 115098637 A 2计算所述形音义 ‑标签联合表示的权 重矩阵与所述形音义 ‑标签联合表示的乘积; 计算所述乘积与偏置项的和, 得到所述 一对比较文本的监 督标签。 7.根据权利要求5所述的文本语义匹配方法, 其特征在于, 所述使用所述监督标签验证 所述神经网络预测模型的步骤, 包括: 使用所述类别匹配标签和所述监督标签进行同/或运算, 计算得到所述一对比较文本 的语义一致性标签; 使用所述语义 一致性标签评判所述神经网络预测模型的预测结果。 8.一种基于汉字形音义多元知识的文本语义匹配系统, 其特 征在于, 包括: 形音义解析模块, 用于获取输入的一对比较文本, 分别对所述一对比较文本中每个文 本的形音义进行解析, 得到每 个文本的汉字信息、 拼音信息和释义信息; 知识融合模块, 用于使用所述汉字信 息、 拼音信息和释义信 息, 对所述一对比较文本进 行形音义多元知识的融合, 得到所述文本的形音义联合表示; 标签形音义融合模块, 用于使用所述一对比较文本的分类标签融合所述文本的形音义 联合表示, 得到所述 一对比较文本的形音义 ‑标签联合表示; 分类预测模块, 用于将所述形音义 ‑标签联合表示输入至神经网络预测模型进行分类 训练; 监督标签计算模块, 用于根据分类标签, 计算得到所述 一对比较文本的监 督标签; 模型验证模块, 用于使用所述 监督标签验证所述神经网络预测模型; 语义预测模块, 用于使用训练成功 的所述神经网络预测模型, 预测得到一对比较文本 的语义匹配关系。 9.根据权利要求8所述的文本语义匹配系统, 其特征在于, 所述标签形音义融合模块, 包括: 标签编码子模块, 用于对所述分类标签进行编码, 得到所述分类标签对应的类别标签 嵌入表示; 标签融合子模块, 用于将所述类别标签嵌入表示与所述文本的形音义联合表示进行融 合, 得到所述 一对比较文本的形音义 ‑标签联合表示。 10.根据权利要求8所述的文本语义匹配系统, 其特 征在于, 所述分类预测模块, 包括: 联合表示输入子模块, 用于将所述文本的形音义联合表示输入至所述神经网络预测模 型的全连接层, 得到隐藏特 征之间的关联表示; 关联表示分类子模块, 用于使用所述神经网络预测模型的线性分类器对所述隐藏特征 之间的关联表示进行分类, 得到类别匹配标签。权 利 要 求 书 2/2 页 3 CN 115098637 A 3

.PDF文档 专利 一种基于汉字形音义多元知识的文本语义匹配方法和系统

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于汉字形音义多元知识的文本语义匹配方法和系统 第 1 页 专利 一种基于汉字形音义多元知识的文本语义匹配方法和系统 第 2 页 专利 一种基于汉字形音义多元知识的文本语义匹配方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:08:09上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。