说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210767114.3 (22)申请日 2022.07.01 (71)申请人 西安工程大 学 地址 710048 陕西省西安市碑林区金花 南 路19号 (72)发明人 朱欣娟 赵钊 尚爱国 焦一凯  (74)专利代理 机构 西安弘理专利事务所 61214 专利代理师 王丹 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/211(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 一种基于深度语义的问题 精确检索方法 (57)摘要 本发明公开了一种基于深度语义的问题精 确检索方法, 首先利用预训练文本表征模型提取 知识库中问题的文本表征向量, 随后将提取后的 向量做归一化处理、 持久化至磁盘, 计算5种关于 精确计算的相似度特征, 这5种相似度特征作为 分类‑判别模型的输入, 从而对候选问题进行精 确判断, 最后将判断为True的答案返回给用户。 本发明的五种外部相似度特征, 能很好地捕捉到 句子的细 节特征, 在一定程度上提高了用户问句 精确检索与识别的准确性; 另外, 通过分类 ‑判别 模型能够预测或者判断候选问句的问题状态可 以为用户返回唯一正确答案, 解决了以往问答系 统答非所问的缺陷。 权利要求书2页 说明书5页 附图1页 CN 115098638 A 2022.09.23 CN 115098638 A 1.一种基于深度语义的问题 精确检索方法, 其特 征在于, 具体按照以下步骤实施: 步骤1、 文本语义特 征比对 在文本语义特征比对阶段, 对案例库CB中存放的搜集到的用户问答数据对进行整理合 并形成知识库KB; 通过预训练文本表征模型将知识库问题转化为文本表征向量, 并将输出 结果持久化至磁 盘中, 从而 使得用户问题可以与知识库问题进行相似度计算; 步骤2、 精确检索特 征计算 使用文本表征向量在案例库CB中检索出最相关的k条问句, k>1, 这一步称为top ‑k候 选; 针对短文本在精确 检索特征计算阶段, 基于top ‑k候选问答对, 为待检索的短文本问句 构造五种相似度特征, 分别是用户问句与top ‑k候选问句文本表征相似度Deep_Score, 用户 问句与top ‑k候选问句特征相似度Sim(Q,KBQ), 用户问句与top ‑k候选问句实体特征相似度 Sim(Q,KBQE), 用户问句与top ‑k候选问句答案 特征相似度Si m(Q,KBA), 用户问句与top ‑k候 选问句意图特 征相似度Sim(Q,KBQR); 步骤3、 候选问句状态判断 根据步骤2获得的精确检索特征相似度构建分类 ‑判别模型, 所述分类 ‑判别模型用于 判断问题是否可以被回答, 分类 ‑判别模型对步骤2的5种相似度特征进 行建模, 加强了问题 的主要特征; 分类 ‑判别模型输出True代表该候选问句与用户提问问句相似, 其答案可以作 为最终答案返回, 输出False代表该候选问句与用户提问问句不相似, 其答案不可以作为最 终答案返回。 2.根据权利要求1所述的一种基于深度语义的问题精确检索方法, 其特征在于, 步骤1 具体如下: 步骤1.1、 将案例库数据输入预训练文本表征模型提取文本的特 征向量; 步骤1.2、 使用向量处 理工具来持久化特 征向量; 具体如下: 步骤1.2.1、 通过步骤1.1得到特征向量, 对特征向量做归一化处理, 使用向量处理工具 Faiss将处理后的文本表征向量 集合持久化到磁 盘中; 步骤1.2.2、 随后对用户问题文本表征向量与知识库表征向量做相似度计算, 对计算结 果进行高效排序。 3.根据权利要求2所述的一种基于深度语义的问题精确检索方法, 其特征在于, 所述步 骤2具体按照以下步骤实施: 步骤2.1、 计算用户问句与top ‑k候选问句特征相似度Sim(Q,KBQ), 其中, Q代表用户问 句语义块特征, KBQ代表 候选问句语义块特征, Q与KBQ的最大观测值作为特征相似度Sim(Q, KBQ), 即Sim(Q,KBQ)=max(Q∩KBQ); 步骤2.2、 计算用户问句与top ‑k候选问句实体特征相似度Sim(Q,KBQE), Sim(Q,KBQE) =max(Q∩KBQE), 其中KBQE表示使用命名实体提取算法得 出的候选问句实体特 征; 步骤2.3、 计算用户问句与top ‑k候选问句答案特征相似度Sim(Q,KBA), Sim(Q,KBA)= max(Q∩KBA), 其中KBA 代表候选问句的答案语义 块特征; 步骤2.4、 计算用户问句与top ‑k候选问句意图特征相似度Sim(Q,KBQR), Sim(Q,KBQR) =max(Q∩KBQR), 其中KBQR表示使用文本意图提取算法得 出的候选问句意图特 征; 步骤2 .5、 计算用户问句与top ‑k候选问句文本表征相似度Deep_Score权 利 要 求 书 1/2 页 2 CN 115098638 A 2其中eu, ek分别表示用户问题文本表征向量和知识库问题文 本表征向量; 所述用户问句语义块特征Q是使用语义块提取算法f(q)来对问句中的语义块进行提 取。 4.根据权利要求3所述的一种基于深度语义的问题精确检索方法, 其特征在于, 所述步 骤3具体为: 步骤3.1、 在步骤2中, 构建了五个维度的特征相似度值, 采用逻辑回归模型对上述五个 维度的特征进行建模, 得到了维度为5 ×m的矩阵V, 其中, m≥1; V代表了知识库候选问题在 用户问题上 的贡献矩阵, 通过用户输入问题与贡献矩阵V的线性归一化计算来获取到用户 问题的详细特 征; 步骤3.2、 基于步骤3.1的设计, 使用非线性 阈值函数来优化分类 ‑判别模型, 分类 ‑判别 模型输出True代表该候选问句与待检索问句相似, 其答案可以作为待检索问句的答案, 输 出False代表该候选问句与待检索问句不相似, 算法为用户返回第一个标记为True的问句。 5.根据权利要求3所述的一种基于深度语义的问题精确检索方法, 其特征在于, 步骤3 所述分类 ‑判别模型是将分类特征提取与判别算法相融合的模 型, 所述分类 ‑判别模型训练 原理为: I(V; w, α )=T(softmax(wV+b1)α +b2). 其中V为输入, w, α, 为模型的学习参数, b1,b2为偏置项。 6.根据权利要求3所述的一种基于深度语义的问题精确检索方法, 其特征在于, 步骤1 所述案例库CB由从文旅机构收集到的问答对组成, 其中包含了3217对问答对; 所述知识库 KB是由人工对所述问答对进行检验标注, 每条数据由大类编号、 小类编号、 问题、 答案四个 属性组成, 共3217 条数据。权 利 要 求 书 2/2 页 3 CN 115098638 A 3

.PDF文档 专利 一种基于深度语义的问题精确检索方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度语义的问题精确检索方法 第 1 页 专利 一种基于深度语义的问题精确检索方法 第 2 页 专利 一种基于深度语义的问题精确检索方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:08:15上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。