(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210602460.6
(22)申请日 2022.05.30
(71)申请人 中电金信软件 有限公司
地址 100082 北京市海淀区西小口路6 6号
东升科技园C区4 号楼401室
(72)发明人 单海军 覃祥坤 邹易澄
(74)专利代理 机构 北京超凡宏宇专利代理事务
所(特殊普通 合伙) 11463
专利代理师 刘凤
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/284(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种文本匹配方法、 装置、 电子设备及可读
存储介质
(57)摘要
本申请提供了一种文本匹配方法、 装置、 电
子设备及可读存储介质, 获取待匹配文本组; 分
别从待匹配文本组所包括的第一待匹配文本和
第二待匹配文本中提取出第一关键词、 第一文本
意图、 第二关键词和第二文本意图; 利用文本匹
配模型分别确定第一关键词与第二关键词之间
的关键词条件概率, 以及第一文本意图与第二文
本意图之间的意图条件概率; 基于关键词条件概
率和意图条件概率, 确定第一待匹配文本与第二
待匹配文本之间的组合概率分布; 根据组合概率
分布, 确定第一待匹配文本与第二待匹配文本是
否具有相同语义。 这样, 可 以充分利用待匹配文
本中所包含的关键词信息和意图信息, 可以提高
文本匹配结果的准确性。
权利要求书3页 说明书14页 附图4页
CN 114969339 A
2022.08.30
CN 114969339 A
1.一种文本匹配方法, 其特 征在于, 所述文本匹配方法包括:
获取待匹配文本组; 其中, 所述待匹配文本组中包括第一待匹配文本和第二待匹配文
本;
从所述第一待 匹配文本 中提取出第 一关键词和第 一文本意图, 以及从所述第 二待匹配
文本中提取 出第二关键词和第二文本意图;
利用文本匹配模型分别确定所述第一关键词与所述第二关键词之间的关键词条件概
率, 以及所述第一文本意图与所述第二文本意图之间的意图条件概率; 所述关键词条件概
率用于表征所述第一关键词与所述第二关键词之间是否具有相同语义, 所述意图条件概率
用于表征 所述第一文本意图与所述第二文本意图之间是否具有相同语义;
基于所述关键词条件概率和所述意图条件概率, 确定所述第 一待匹配文本与 所述第二
待匹配文本之 间的组合概率分布; 所述组合概率分布用于表征所述第一待匹配文本与所述
第二待匹配文本之间是否具有相同语义;
根据所述组合概率分布, 确定所述第 一待匹配文本与 所述第二待匹配文本是否具有相
同语义。
2.根据权利要求1所述的文本匹配方法, 其特征在于, 所述从所述第 一待匹配文本 中提
取出第一关键词和 第一文本意图, 以及从所述第二待匹配文本中提取出第二关键词和 第二
文本意图, 包括:
分别对所述第 一待匹配文本和所述第 二待匹配文本进行分词, 得到第 一待匹配文本的
第一单词表示序列和第二待匹配文本的第二单词表示序列;
结合预设分词字符, 拼接所述第 一单词表示序列和所述第 二单词表示序列 得到整体表
示序列;
对所述整体表示序列进行编码, 得到匹配文本表示向量;
通过预先训练好的关键词 ‑意图分类器, 基于所述匹配文本表示向量, 确定出表征所述
第一待匹配文本的所述第一关键词和所述第一文本意图, 以及表征所述第二待匹配文本的
所述第二关键词以及所述第二文本意图。
3.根据权利要求2所述的文本匹配方法, 其特征在于, 通过以下步骤训练所述关键词 ‑
意图分类 器:
获取多个样本分词的样本表示向量以及每 个样本分词的弱标签;
根据每个样本分词的弱标签, 将所述多个样本分词分类为潜在关键词样本组和潜在意
图样本组;
利用所述潜在关键词样本组和所述潜在意图样本组, 通过分类损 失调整所述关键词 ‑
意图分类 器所涉及的分类参数, 得到训练好的关键词 ‑意图分类 器。
4.根据权利要求1所述的文本匹配方法, 其特征在于, 通过以下步骤训练所述文本匹配
模型:
获取多个训练文本组; 其中, 每个训练文本组中包括第 一训练文本和第 二训练文本; 所
述第一训练文本包括第一训练关键词和第一训练意图, 所述第二训练文本包括第二训练关
键词和第二训练意图;
通过每个训练文本组中第一训练文本与第二训练文本图之间的全局匹配概率分布的
负对数似然损失, 初步调节所述文本匹配模型所涉及的匹配参数, 得到预训练的文本匹配权 利 要 求 书 1/3 页
2
CN 114969339 A
2模型;
通过预训练的文本匹配模型, 基于所述第一训练关键词、 所述第一训练意图、 所述第二
训练关键词以及所述第二训练意图, 确定所述训练文本组的组合 概率分布;
利用每个训练文本组 的所述全局匹配概率分布与 所述组合概率分布之间的散度损失,
分别调节预训练的文本匹配模型 所涉及的匹配参数, 得到训练好的文本匹配模型。
5.根据权利要求4所述的文本匹配方法, 其特征在于, 所述通过预训练的文本匹配模
型, 基于所述第一训练关键词、 所述第一训练意图、 所述第二训练关键词以及所述第二训练
意图, 确定所述训练文本组的组合 概率分布, 包括:
通过预训练的文本匹配模型, 分别预测所述第 一训练关键词与 所述第二训练关键词之
间的关键词条件概 率, 以及所述第一训练意图与所述第二训练意图之间的意图条件概 率;
组合所述关键词条件概率和所述意图条件概率, 得到所述训练文本组的组合概率分
布。
6.根据权利要求1所述的文本匹配方法, 其特征在于, 所述基于所述关键词条件概率和
所述意图条件概率, 确定所述第一待匹配文本与所述第二待匹配文本之间的组合概率分
布, 包括:
分别确定所述第一待匹配文本与所述第二待匹配文本之间的关键词边缘概率和意图
边缘概率;
基于所述关键词条件概率和所述关键词边缘概率, 确定所述第 一待匹配文本与所述第
二待匹配文本之间的关键词联合 概率;
基于所述意图条件概率和所述意图边缘概率, 确定所述第 一待匹配文本与 所述第二待
匹配文本之间的意图联合 概率;
基于所述关键词联合概率和所述意图联合概率, 确定所述第 一待匹配文本与 所述第二
待匹配文本之间的组合 概率分布。
7.一种文本匹配装置, 其特 征在于, 所述文本匹配装置包括:
获取模块, 用于获取待 匹配文本组; 其中, 所述待 匹配文本组中包括第 一待匹配文本和
第二待匹配文本;
提取模块, 用于从所述第一待匹配文本中提取出第一关键词和第一文本意图, 以及从
所述第二待匹配文本中提取 出第二关键词和第二文本意图;
第一分布确定模块, 用于利用文本匹配模型分别确定所述第 一关键词与所述第 二关键
词之间的关键词条件概率, 以及所述第一文本意图与所述第二文本意图之 间的意图条件概
率; 所述关键词条件概率用于表征所述第一关键词 与所述第二关键词之间是否具有相同语
义, 所述意图条件概率用于表征所述第一文本意图与所述第二文本意图之 间是否具有相同
语义;
第二分布确定模块, 用于基于所述关键词条件概率和所述意图条件概率, 确定所述第
一待匹配文本与所述第二待匹配文本之 间的组合概率分布; 所述组合概率分布用于表征所
述第一待匹配文本与所述第二待匹配文本之间是否具有相同语义;
匹配模块, 用于根据所述组合概率分布, 确定所述第一待匹配文本与所述第二待匹配
文本是否具有相同语义。
8.根据权利要求7所述的文本匹配装置, 其特征在于, 所述文本匹配装置还包括第 一训权 利 要 求 书 2/3 页
3
CN 114969339 A
3
专利 一种文本匹配方法、装置、电子设备及可读存储介质
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:09:10上传分享