专利 一种基于深度语义的问题精确检索方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210767114.3 (22)申请日 2022.07.01 (71)申请人西安工程大学地址 710048 陕西省西安市碑林区金花南路19号 (72)发明人朱欣娟　赵钊　尚爱国　焦一凯　 (74)专利代理机构西安弘理专利事务所 61214 专利代理师王丹 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/211(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称一种基于深度语义的问题精确检索方法 (57)摘要本发明公开了一种基于深度语义的问题精确检索方法，首先利用预训练文本表征模型提取知识库中问题的文本表征向量，随后将提取后的向量做归一化处理、持久化至磁盘，计算5种关于精确计算的相似度特征，这5种相似度特征作为分类‑判别模型的输入，从而对候选问题进行精确判断，最后将判断为True的答案返回给用户。本发明的五种外部相似度特征，能很好地捕捉到句子的细节特征，在一定程度上提高了用户问句精确检索与识别的准确性；另外，通过分类 ‑判别模型能够预测或者判断候选问句的问题状态可以为用户返回唯一正确答案，解决了以往问答系统答非所问的缺陷。权利要求书2页说明书5页附图1页 CN 115098638 A 2022.09.23 CN 115098638 A 1.一种基于深度语义的问题精确检索方法，其特征在于，具体按照以下步骤实施：步骤1、文本语义特征比对在文本语义特征比对阶段，对案例库CB中存放的搜集到的用户问答数据对进行整理合并形成知识库KB；通过预训练文本表征模型将知识库问题转化为文本表征向量，并将输出结果持久化至磁盘中，从而使得用户问题可以与知识库问题进行相似度计算；步骤2、精确检索特征计算使用文本表征向量在案例库CB中检索出最相关的k条问句， k＞1，这一步称为top ‑k候选；针对短文本在精确检索特征计算阶段，基于top ‑k候选问答对，为待检索的短文本问句构造五种相似度特征，分别是用户问句与top ‑k候选问句文本表征相似度Deep_Score，用户问句与top ‑k候选问句特征相似度Sim(Q,KBQ)，用户问句与top ‑k候选问句实体特征相似度 Sim(Q,KBQE)，用户问句与top ‑k候选问句答案特征相似度Si m(Q,KBA)，用户问句与top ‑k候选问句意图特征相似度Sim(Q,KBQR)；步骤3、候选问句状态判断根据步骤2获得的精确检索特征相似度构建分类 ‑判别模型，所述分类 ‑判别模型用于判断问题是否可以被回答，分类 ‑判别模型对步骤2的5种相似度特征进行建模，加强了问题的主要特征；分类 ‑判别模型输出True代表该候选问句与用户提问问句相似，其答案可以作为最终答案返回，输出False代表该候选问句与用户提问问句不相似，其答案不可以作为最终答案返回。 2.根据权利要求1所述的一种基于深度语义的问题精确检索方法，其特征在于，步骤1 具体如下：步骤1.1、将案例库数据输入预训练文本表征模型提取文本的特征向量；步骤1.2、使用向量处理工具来持久化特征向量；具体如下：步骤1.2.1、通过步骤1.1得到特征向量，对特征向量做归一化处理，使用向量处理工具 Faiss将处理后的文本表征向量集合持久化到磁盘中；步骤1.2.2、随后对用户问题文本表征向量与知识库表征向量做相似度计算，对计算结果进行高效排序。 3.根据权利要求2所述的一种基于深度语义的问题精确检索方法，其特征在于，所述步骤2具体按照以下步骤实施：步骤2.1、计算用户问句与top ‑k候选问句特征相似度Sim(Q,KBQ)，其中， Q代表用户问句语义块特征， KBQ代表候选问句语义块特征， Q与KBQ的最大观测值作为特征相似度Sim(Q, KBQ)，即Sim(Q,KBQ)＝max(Q∩KBQ)；步骤2.2、计算用户问句与top ‑k候选问句实体特征相似度Sim(Q,KBQE)， Sim(Q,KBQE) ＝max(Q∩KBQE)，其中KBQE表示使用命名实体提取算法得出的候选问句实体特征；步骤2.3、计算用户问句与top ‑k候选问句答案特征相似度Sim(Q,KBA)， Sim(Q,KBA)＝ max(Q∩KBA)，其中KBA 代表候选问句的答案语义块特征；步骤2.4、计算用户问句与top ‑k候选问句意图特征相似度Sim(Q,KBQR)， Sim(Q,KBQR) ＝max(Q∩KBQR)，其中KBQR表示使用文本意图提取算法得出的候选问句意图特征；步骤2 .5、计算用户问句与top ‑k候选问句文本表征相似度Deep_Score权　利　要　求　书 1/2 页 2 CN 115098638 A 2其中eu， ek分别表示用户问题文本表征向量和知识库问题文本表征向量；所述用户问句语义块特征Q是使用语义块提取算法f(q)来对问句中的语义块进行提取。 4.根据权利要求3所述的一种基于深度语义的问题精确检索方法，其特征在于，所述步骤3具体为：步骤3.1、在步骤2中，构建了五个维度的特征相似度值，采用逻辑回归模型对上述五个维度的特征进行建模，得到了维度为5 ×m的矩阵V，其中， m≥1； V代表了知识库候选问题在用户问题上的贡献矩阵，通过用户输入问题与贡献矩阵V的线性归一化计算来获取到用户问题的详细特征；步骤3.2、基于步骤3.1的设计，使用非线性阈值函数来优化分类 ‑判别模型，分类 ‑判别模型输出True代表该候选问句与待检索问句相似，其答案可以作为待检索问句的答案，输出False代表该候选问句与待检索问句不相似，算法为用户返回第一个标记为True的问句。 5.根据权利要求3所述的一种基于深度语义的问题精确检索方法，其特征在于，步骤3 所述分类 ‑判别模型是将分类特征提取与判别算法相融合的模型，所述分类 ‑判别模型训练原理为： I(V； w, α )＝T(softmax(wV+b1)α +b2). 其中V为输入， w， α，为模型的学习参数， b1,b2为偏置项。 6.根据权利要求3所述的一种基于深度语义的问题精确检索方法，其特征在于，步骤1 所述案例库CB由从文旅机构收集到的问答对组成，其中包含了3217对问答对；所述知识库 KB是由人工对所述问答对进行检验标注，每条数据由大类编号、小类编号、问题、答案四个属性组成，共3217 条数据。权　利　要　求　书 2/2 页 3 CN 115098638 A 3

专利 一种基于深度语义的问题精确检索方法

专利一种基于深度语义的问题精确检索方法