专利 一种文本语义匹配方法及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210544384.8 (22)申请日 2022.05.19 (71)申请人山东新一代信息产业技术研究院有限公司地址 250013 山东省济南市高新区港兴三路北段未来创业广场3号楼1 1-12层 (72)发明人李沛　李晓瑜　冯落落　冯卫森　尹青山　 (74)专利代理机构北京君慧知识产权代理事务所(普通合伙) 11716 专利代理师王彬 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) G06F 16/33(2019.01) (54)发明名称一种文本语义匹配方法及设备 (57)摘要本申请实施例公开了一种文本语义匹配方法及设备。通过预设相似度组合算法，对用户输入的文本与预设语料库中的文本进行第一相似度计算，以在预设语料库中筛选出参考语料集合；其中，参考语料集合中的语料所对应的第一相似度大于预设相似度阈值；预设语料库包括多个语料以及多个语料分别对应有文本语义；将用户输入的文本以及参考语料集合输入预设SBERT 模型，通过预设SBERT模型对用户输入的文本进行第一序列向量提取，以及通过预设SBERT模型对参考语料集合中的语料进行第二序列向量提取；通过预设SBERT模型，确定出第一序列向量与多个第二序列向量分别对应的第二相似度，以根据第二相似度确定出与用户输入的文本所对应的文本语义。权利要求书2页说明书7页附图1页 CN 114861674 A 2022.08.05 CN 114861674 A 1.一种文本语义匹配方法，其特征在于，所述方法包括：通过预设相似度组合算法，对用户输入的文本与预设语料库中的文本进行第一相似度计算，以在所述预设语料库中筛选出参考语料集合；其中，所述参考语料集合中的语料所对应的第一相似度大于预设相似度阈值；所述预设语料库包括多个语料以及所述多个语料分别对应有文本语义；将所述用户输入的文本以及所述参考语料集合输入预设SBERT模型，通过所述预设 SBERT模型对所述用户输入的文本进行第一序列向量提取，以及通过所述预设SBERT模型对所述参考语料集合中的语料进行第二序列向量提取；通过所述预设SBERT模型，确定出所述第一序列向量与多个所述第二序列向量分别对应的第二相似度，以根据所述第二相似度确定出与所述用户输入的文本所对应的文本语义。 2.根据权利要求1所述的一种文本语义匹配方法，其特征在于，所述预设相似度组合算法至少包括BM25算法、最小距离算法、同义词替换算法以及错别字纠错算法中的一项或多项。 3.根据权利要求1所述的一种文本语义匹配方法，其特征在于，所述通过预设相似度组合算法，对用户输入的文本与预设语料库中的文本进行第一相似度计算，以在所述预设语料库中筛选出参考语料集合，具体包括：通过所述相似度组合算法中的多种算法，分别对所述用户输入的文本与所述预设语料库中的文本进行第一相似度计算；确定所述预设语料库中的每个语料分别对应的多个第一相似度；将每个语料分别对应的多个第一相似度与所述预设相似度阈值进行比对，在当前语料所对应的多个第一相似度均大于所述预设相似度阈值的情况下，将所述当前语料作为所述参考语料集合中的语料。 4.根据权利要求1所述的一种文本语义匹配方法，其特征在于，所述将所述用户输入的文本以及所述参考语料集合输入预设SBERT模型，具体包括：将所述用户输入的文本与所述参考语料集合，分别输入所述预设SBERT模型中的子网络模型；其中，所述子网络模型为参数共享的多个BERT模型。 5.根据权利要求1所述的一种文本语义匹配方法，其特征在于，所述通过所述预设 SBERT模型对所述用户输入的文本进行第一序列向量提取，具体包括：通过所述SBERT模型的Transformer层对所述用户输入的文本进行编码，以将所述用户输入的文本转换为所述SBERT模型所对应的编码格式；基于预设字符长度与所述SBERT模型，对所述用户输入的文本进行文本划分，得到所述用户输入的文本对应的第一序列向量。 6.根据权利要求1所述的一种文本语义匹配方法，其特征在于，所述通过所述预设 SBERT模型对所述参考语料集合中的语料进行第二序列向量提取，具体包括：通过所述SBERT模型的Transformer层对所述参考语料集合中的语料进行编码，以将所述参考语料集合中的语料转换为所述SBERT模型所对应的编码格式；基于预设字符长度与所述SBERT模型，对所述参考语料集合中的语料进行文本划分，得权　利　要　求　书 1/2 页 2 CN 114861674 A 2到所述参考语料集合中的语料对应的第二序列向量。 7.根据权利要求1所述的一种文本语义匹配方法，其特征在于，所述通过所述预设 SBERT模型，确定出所述第一序列向量与多个所述第二序列向量分别对应的第二相似度，具体包括：通过所述SBERT模型确定所述第一序列向量中的第一数据内容，以及确定出所述第二序列向量中的第二数据内容；对所述第一数据内容分别与多个所述第二数据内容进行关联度计算，以得到所述第一序列向量分别与所述多个第二序列向量之间的第二相似度。 8.根据权利要求1所述的一种文本语义匹配方法，其特征在于，所述根据所述第二相似度确定出与所述用户输入的文本所对应的文本语义，具体包括：确定出所述参考语料集合中的语料分别对应的第二相似度；基于所述第一相似度，以及预设权重值模板，确定出所述参考语料集合中的语料分别对应的权重值；将所述权重值与所述第二相似度进行乘积计算，将乘积最高的第二相似度所对应的语料含义，作为与所述用户输入的文本相匹配的文本语义。 9.根据权利要求1所述的一种文本语义匹配方法，其特征在于，所述通过预设相似度组合算法，对用户输入的文本与预设语料库中的文本进行第一相似度计算之前，所述方法还包括：获取所述用户输入的文本；对所述用户输入的文本进行数据清洗，以确定出所述用户输入的文本中的问题数据；其中，所述问题数据至少包括重复数据与损坏数据中的一项或多项；将所述重复数据进行删除处理；以及基于预设文本模板，对所述损坏数据进行修复处理。 10.一种文本语义匹配设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：通过预设相似度组合算法，对用户输入的文本与预设语料库中的文本进行第一相似度计算，以在所述预设语料库中筛选出参考语料集合；其中，所述参考语料集合中的语料所对应的第一相似度大于预设相似度阈值；所述预设语料库包括多个语料以及所述多个语料分别对应有文本语义；将所述用户输入的文本以及所述参考语料集合输入预设SBERT模型，通过所述预设 SBERT模型对所述用户输入的文本进行第一序列向量提取，以及通过所述预设SBERT模型对所述参考语料集合中的语料进行第二序列向量提取；通过所述预设SBERT模型，确定出所述第一序列向量与多个所述第二序列向量分别对应的第二相似度，以根据所述第二相似度确定出与所述用户输入的文本所对应的文本语义。权　利　要　求　书 2/2 页 3 CN 114861674 A 3

专利 一种文本语义匹配方法及设备

专利一种文本语义匹配方法及设备