专利 一种文档排序方法、排序装置、电子设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210806608.8 (22)申请日 2022.07.08 (71)申请人阳光保险集团股份有限公司地址 518000 广东省深圳市福田区红荔西路7002号第一世界广场A座17层 (72)发明人韩佳　杜新凯　吕超　谷姗姗　张晗　史辉　刘珊珊　 (74)专利代理机构北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 专利代理师于彬 (51)Int.Cl. G06F 16/338(2019.01) G06F 16/335(2019.01) G06F 40/30(2020.01) G06N 3/08(2006.01) (54)发明名称一种文档排序方法、排序装置、电子设备和存储介质 (57)摘要本申请提供了一种文档排序方法、排序装置、电子设备和存储介质。所述排序方法包括：在接收到用户输入的查询语句之后，召回与该查询语句相关的多个候选文档；每个候选文档中包括与该查询语句相关的关联语句；针对每个候选文档中的关联语句，将该查询语句和该候选文档中的关联语句进行拼接处理，获得拼接语料；将该拼接语料输入到预先训练好的相似度分值预测模型中，获得该候选文档的相似度分值；所述相似度分值表示该候选文档中的关联语句与所述查询语句的相似度；根据每个候选文档的相似度分值，确定所述多个候选文档的文档排序结果。通过所述排序方法和排序装置，能够准确地对文档进行排序，提高用户的体验度。权利要求书2页说明书12页附图3页 CN 115098668 A 2022.09.23 CN 115098668 A 1.一种文档排序方法，其特征在于，所述排序方法包括：在接收到用户输入的查询语句之后，召回与该查询语句相关的多个候选文档；每个候选文档中包括与该查询语句相关的关联语句；针对每个候选文档中的关联语句，将该查询语句和该候选文档中的关联语句进行拼接处理，获得拼接语料；将该拼接语料输入到预先训练好的相似度分值预测模型中，获得该候选文档的相似度分值；所述相似度分值表示该候选文档中的关联语句与所述查询语句的相似度；根据每个候选文档的相似度分值，确定所述多个候选文档的文档排序结果。 2.根据权利要求1所述的排序方法，其特征在于，所述相似度分值预测模型通过以下步骤训练而被得到：获取语料训练数据集；基于所述语料训练数据集训练初始相似度分值预测模型，获得相似度分值预测模型。 3.根据权利要求2所述的排序方法，其特征在于，通过以下步骤获取所述语料训练数据集：获取原始单句语料，并对所述原始单句语料进行预处理，获得单句语料；根据所述单句语料，获得初始语料训练数据集；所述初始语料训练数据集包括多个被设置语义标签的语料对；根据所述初始语料训练数据集，获得语料训练数据集；所述语料训练数据集包括与每个目标语料对应的多组语料样本；每组语料样本中包括多个被设置相关度标签的语料样本。 4.根据权利要求3所述的排序方法，其特征在于，所述根据所述单句语料，获得初始语料训练数据集，包括；将所述单句语料两两随机组合，获得多个语料对；针对每个语料对，利用相似度模型确定该语料对中的两个单句语料之间的语义关系；所述语义关系包括相似关系和不相似关系；根据所述语义关系，对该语料对设置语义标签，以得到被设置语义标签的语料对；所述语义标签的类别包括相似和不相似；将所有被设置语义标签的语料对组成的集合确定为初始语料训练数据集。 5.根据权利要求4所述的排序方法，其特征在于，所述根据所述初始语料训练数据集，获得语料训练数据集，包括；针对所述初始语料训练数据集中的每个单句语料，根据该单句语料的句式，从所述初始语料训练数据集中筛选出与该单句语料的句式完全相同的复刻语料，并将该单句语料和所述复刻语料作为目标语料，将所述目标语料所在的语料对作为目标语料对；根据目标语料对的语义标签，从所述目标语料对中分别筛选出与该目标语料的语义相似的相似语料和语义不相似的不相似语料；对该目标语料、所述相似语料和所述不相似语料进行排列组合，获得与该目标语料对应的多组语料样本；每组语料样本中的每个语料样本包括目标语料、第一语料和第二语料；所述第一语料为所述目标语料后的第一个语料，所述第二语料为所述目标语料后的第二个语料；权　利　要　求　书 1/2 页 2 CN 115098668 A 2针对每组语料样本，根据该组语料样本中的第一语料和第二语料之间的语义关系，对该组语料样本中的每个语料样本设置相关度标签，以得到多个被设置相关度标签的语料样本；所述相关度标签的类别包括：第一标签；第二标签和第三标签；所述第一标签表示第一语料比第二语料与目标语料更相关，所述第二标签表示第一语料和第二语料与目标语料相关性一致，所述第三标签表示第二语料比第一语料与目标语料更相关；将所有被设置相关度标签的语料样本组成的集合确定为语料训练数据集。 6.根据权利要求2所述的排序方法，其特征在于，所述基于语料训练数据集训练所述初始相似度分值预测模型，获得相似度分值预测模型，包括：针对语料训练数据集中的每个被设置相关度标签的语料样本，将该语料样本中的目标语料和第一语料进行拼接处理，得到第一拼接语料，并将该语料样本中的目标语料和第二语料进行拼接处理，得到第二拼接语料；将所述第一拼接语料和所述第二拼接语料输入到所述初始相似度分值预测模型中，获得所述初始相似度分值预测模型针对该第一拼接语料输出的第一相似度分值以及针对该第二拼接语料输出的第二相似度分值；根据所述第一相似度分值和所述第二相似度分值，确定该被设置相关度标签的语料样本的相关度概率；所述相关度概率表示第一语料与目标语料的相关度大于第二语料与目标语料的相关度的概率；根据所述相关度概率和该语料样本的相关度标签，不断调整所述初始相似度分值预测模型中的网络参数，直至交叉熵损失函数达到收敛状态时，得到相似度分值预测模型。 7.一种文档排序装置，其特征在于，所述排序装置包括：召回模块，用于在接收到用户输入的查询语句之后，召回与该查询语句相关的多个候选文档；每个候选文档中包括与该查询语句相关的关联语句；拼接模块，用于针对每个候选文档中的关联语句，将该查询语句和该候选文档中的关联语句进行拼接处理，获得拼接语料；计算模块，用于将该拼接语料输入到预先训练好的相似度分值预测模型中，获得该候选文档的相似度分值；所述相似度分值表示该候选文档中的关联语句与所述查询语句的相似度；排序模块，用于根据每个候选文档的相似度分值，确定所述多个候选文档的文档排序结果。 8.根据权利要求7所述的排序装置，其特征在于，所述排序装置还包括：训练模块，所述训练模块用于：获取语料训练数据集；基于所述语料训练数据集训练初始相似度分值预测模型，获得相似度分值预测模型。 9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行如权利要求 1至6任一所述的文档排序方法的步骤。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至6任一所述的文档排序方法的步骤。权　利　要　求　书 2/2 页 3 CN 115098668 A 3

专利 一种文档排序方法、排序装置、电子设备和存储介质

专利一种文档排序方法、排序装置、电子设备和存储介质