(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210767114.3
(22)申请日 2022.07.01
(71)申请人 西安工程大 学
地址 710048 陕西省西安市碑林区金花 南
路19号
(72)发明人 朱欣娟 赵钊 尚爱国 焦一凯
(74)专利代理 机构 西安弘理专利事务所 61214
专利代理师 王丹
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 40/211(2020.01)
G06F 40/295(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于深度语义的问题 精确检索方法
(57)摘要
本发明公开了一种基于深度语义的问题精
确检索方法, 首先利用预训练文本表征模型提取
知识库中问题的文本表征向量, 随后将提取后的
向量做归一化处理、 持久化至磁盘, 计算5种关于
精确计算的相似度特征, 这5种相似度特征作为
分类‑判别模型的输入, 从而对候选问题进行精
确判断, 最后将判断为True的答案返回给用户。
本发明的五种外部相似度特征, 能很好地捕捉到
句子的细 节特征, 在一定程度上提高了用户问句
精确检索与识别的准确性; 另外, 通过分类 ‑判别
模型能够预测或者判断候选问句的问题状态可
以为用户返回唯一正确答案, 解决了以往问答系
统答非所问的缺陷。
权利要求书2页 说明书5页 附图1页
CN 115098638 A
2022.09.23
CN 115098638 A
1.一种基于深度语义的问题 精确检索方法, 其特 征在于, 具体按照以下步骤实施:
步骤1、 文本语义特 征比对
在文本语义特征比对阶段, 对案例库CB中存放的搜集到的用户问答数据对进行整理合
并形成知识库KB; 通过预训练文本表征模型将知识库问题转化为文本表征向量, 并将输出
结果持久化至磁 盘中, 从而 使得用户问题可以与知识库问题进行相似度计算;
步骤2、 精确检索特 征计算
使用文本表征向量在案例库CB中检索出最相关的k条问句, k>1, 这一步称为top ‑k候
选; 针对短文本在精确 检索特征计算阶段, 基于top ‑k候选问答对, 为待检索的短文本问句
构造五种相似度特征, 分别是用户问句与top ‑k候选问句文本表征相似度Deep_Score, 用户
问句与top ‑k候选问句特征相似度Sim(Q,KBQ), 用户问句与top ‑k候选问句实体特征相似度
Sim(Q,KBQE), 用户问句与top ‑k候选问句答案 特征相似度Si m(Q,KBA), 用户问句与top ‑k候
选问句意图特 征相似度Sim(Q,KBQR);
步骤3、 候选问句状态判断
根据步骤2获得的精确检索特征相似度构建分类 ‑判别模型, 所述分类 ‑判别模型用于
判断问题是否可以被回答, 分类 ‑判别模型对步骤2的5种相似度特征进 行建模, 加强了问题
的主要特征; 分类 ‑判别模型输出True代表该候选问句与用户提问问句相似, 其答案可以作
为最终答案返回, 输出False代表该候选问句与用户提问问句不相似, 其答案不可以作为最
终答案返回。
2.根据权利要求1所述的一种基于深度语义的问题精确检索方法, 其特征在于, 步骤1
具体如下:
步骤1.1、 将案例库数据输入预训练文本表征模型提取文本的特 征向量;
步骤1.2、 使用向量处 理工具来持久化特 征向量; 具体如下:
步骤1.2.1、 通过步骤1.1得到特征向量, 对特征向量做归一化处理, 使用向量处理工具
Faiss将处理后的文本表征向量 集合持久化到磁 盘中;
步骤1.2.2、 随后对用户问题文本表征向量与知识库表征向量做相似度计算, 对计算结
果进行高效排序。
3.根据权利要求2所述的一种基于深度语义的问题精确检索方法, 其特征在于, 所述步
骤2具体按照以下步骤实施:
步骤2.1、 计算用户问句与top ‑k候选问句特征相似度Sim(Q,KBQ), 其中, Q代表用户问
句语义块特征, KBQ代表 候选问句语义块特征, Q与KBQ的最大观测值作为特征相似度Sim(Q,
KBQ), 即Sim(Q,KBQ)=max(Q∩KBQ);
步骤2.2、 计算用户问句与top ‑k候选问句实体特征相似度Sim(Q,KBQE), Sim(Q,KBQE)
=max(Q∩KBQE), 其中KBQE表示使用命名实体提取算法得 出的候选问句实体特 征;
步骤2.3、 计算用户问句与top ‑k候选问句答案特征相似度Sim(Q,KBA), Sim(Q,KBA)=
max(Q∩KBA), 其中KBA 代表候选问句的答案语义 块特征;
步骤2.4、 计算用户问句与top ‑k候选问句意图特征相似度Sim(Q,KBQR), Sim(Q,KBQR)
=max(Q∩KBQR), 其中KBQR表示使用文本意图提取算法得 出的候选问句意图特 征;
步骤2 .5、 计算用户问句与top ‑k候选问句文本表征相似度Deep_Score权 利 要 求 书 1/2 页
2
CN 115098638 A
2其中eu, ek分别表示用户问题文本表征向量和知识库问题文
本表征向量;
所述用户问句语义块特征Q是使用语义块提取算法f(q)来对问句中的语义块进行提
取。
4.根据权利要求3所述的一种基于深度语义的问题精确检索方法, 其特征在于, 所述步
骤3具体为:
步骤3.1、 在步骤2中, 构建了五个维度的特征相似度值, 采用逻辑回归模型对上述五个
维度的特征进行建模, 得到了维度为5 ×m的矩阵V, 其中, m≥1; V代表了知识库候选问题在
用户问题上 的贡献矩阵, 通过用户输入问题与贡献矩阵V的线性归一化计算来获取到用户
问题的详细特 征;
步骤3.2、 基于步骤3.1的设计, 使用非线性 阈值函数来优化分类 ‑判别模型, 分类 ‑判别
模型输出True代表该候选问句与待检索问句相似, 其答案可以作为待检索问句的答案, 输
出False代表该候选问句与待检索问句不相似, 算法为用户返回第一个标记为True的问句。
5.根据权利要求3所述的一种基于深度语义的问题精确检索方法, 其特征在于, 步骤3
所述分类 ‑判别模型是将分类特征提取与判别算法相融合的模 型, 所述分类 ‑判别模型训练
原理为: I(V; w, α )=T(softmax(wV+b1)α +b2).
其中V为输入, w, α, 为模型的学习参数, b1,b2为偏置项。
6.根据权利要求3所述的一种基于深度语义的问题精确检索方法, 其特征在于, 步骤1
所述案例库CB由从文旅机构收集到的问答对组成, 其中包含了3217对问答对; 所述知识库
KB是由人工对所述问答对进行检验标注, 每条数据由大类编号、 小类编号、 问题、 答案四个
属性组成, 共3217 条数据。权 利 要 求 书 2/2 页
3
CN 115098638 A
3
专利 一种基于深度语义的问题精确检索方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:08:15上传分享