(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210806608.8
(22)申请日 2022.07.08
(71)申请人 阳光保险集团股份有限公司
地址 518000 广东省深圳市福田区红荔西
路7002号第一世界广场A座17层
(72)发明人 韩佳 杜新凯 吕超 谷姗姗
张晗 史辉 刘珊珊
(74)专利代理 机构 北京超凡宏宇专利代理事务
所(特殊普通 合伙) 11463
专利代理师 于彬
(51)Int.Cl.
G06F 16/338(2019.01)
G06F 16/335(2019.01)
G06F 40/30(2020.01)
G06N 3/08(2006.01)
(54)发明名称
一种文档排序方法、 排序装置、 电子设备和
存储介质
(57)摘要
本申请提供了一种文档排序方法、 排序装
置、 电子设备和存储介质。 所述排序方法包括: 在
接收到用户输入的查询语句之后, 召回与该查询
语句相关的多个候选文档; 每个候选文档中包括
与该查询语句相关的关联语句; 针对每个候选文
档中的关联语句, 将该查询语句和该候选文档中
的关联语句进行拼接处理, 获得拼接语料; 将该
拼接语料输入到预先训练好的相似度分值预测
模型中, 获得该候选文档的相似度分值; 所述相
似度分值表示该候选文档中的关联语句与所述
查询语句的相似度; 根据每个候选文档的相似度
分值, 确定所述多个候选文档的文档排序结果。
通过所述排序方法和排序装置, 能够准确地对文
档进行排序, 提高用户的体验度。
权利要求书2页 说明书12页 附图3页
CN 115098668 A
2022.09.23
CN 115098668 A
1.一种文档排序方法, 其特 征在于, 所述 排序方法包括:
在接收到用户输入的查询语句之后, 召回与该查询语句相关的多个候选文档; 每个候
选文档中包括与该查询语句 相关的关联语句;
针对每个候选文档中的关联语句, 将该查询语句和该候选文档中的关联语句进行拼接
处理, 获得拼接语料;
将该拼接语料输入到预先训练好的相似度分值预测模型中, 获得该候选文档的相似度
分值; 所述相似度分值表示该候选文档中的关联语句与所述 查询语句的相似度;
根据每个候选文档的相似度分值, 确定所述多个候选文档的文档排序结果。
2.根据权利要求1所述的排序方法, 其特征在于, 所述相似度分值预测模型通过以下步
骤训练而被得到:
获取语料训练数据集;
基于所述语料训练数据集训练初始相似度分值预测模型, 获得相似度分值预测模型。
3.根据权利要求2所述的排序方法, 其特征在于, 通过以下步骤获取所述语料训练数据
集:
获取原始单句语料, 并对所述原 始单句语料进行 预处理, 获得单句语料;
根据所述单句语料, 获得初始语料训练数据集; 所述初始语料训练数据集包括多个被
设置语义标签的语料对;
根据所述初始语料训练数据集, 获得语料训练数据集; 所述语料训练数据集包括与每
个目标语料对应的多组语料样本; 每组语料样本中包括多个被设置相关度标签的语料样
本。
4.根据权利要求3所述的排序方法, 其特征在于, 所述根据所述单句语料, 获得初始语
料训练数据集, 包括;
将所述单句语料两 两随机组合, 获得多个 语料对;
针对每个语料对, 利用相似度模型确定该语料对中的两个单句语料之间的语义关系;
所述语义关系包括相似关系和不相似关系;
根据所述语义关系, 对该语料对设置语义标签, 以得到被设置语义标签的语料对; 所述
语义标签的类别包括相似和不相似;
将所有被设置语义标签的语料对组成的集 合确定为初始语料训练数据集。
5.根据权利要求4所述的排序方法, 其特征在于, 所述根据所述初始语料训练数据集,
获得语料训练数据集, 包括;
针对所述初始语料训练数据集中的每个单句语料, 根据该单句语料的句式, 从所述初
始语料训练数据集中筛选出与该单句语料的句式完全相同的复刻语料, 并将该单句语料和
所述复刻语料作为目标语料, 将所述目标语料 所在的语料对作为目标语料对;
根据目标语料对的语义标签, 从所述目标语料对中分别 筛选出与该目标语料的语义相
似的相似语料和语义 不相似的不相似语料;
对该目标语料、 所述相似语料和所述不相似语料进行排列组合, 获得与该目标语料对
应的多组语料样 本; 每组语料样本中的每个语料样本包括目标语料、 第一语料和 第二语料;
所述第一语料为所述目标语料后的第一个语料, 所述第二语料为所述目标语料后的第二个
语料;权 利 要 求 书 1/2 页
2
CN 115098668 A
2针对每组语料样本, 根据该组语料样本中的第一语料和第二语料之间的语义关系, 对
该组语料样本中的每个语料样本设置相关度标签, 以得到多个被设置相关度标签的语料样
本; 所述相关度标签的类别包括: 第一标签; 第二标签和第三标签; 所述第一标签表示第一
语料比第二语料与目标语料更相关, 所述第二标签表示第一语料和第二语料与目标语料相
关性一致, 所述第三标签表示第二语料比第一语料与目标语料 更相关;
将所有被设置相关度标签的语料样本组成的集 合确定为语料训练数据集。
6.根据权利要求2所述的排序方法, 其特征在于, 所述基于语料训练数据集训练所述初
始相似度分值预测模型, 获得相似度分值预测模型, 包括:
针对语料训练数据集中的每个被设置相关度标签的语料样本, 将该语料样本中的目标
语料和第一语料进行拼接处理, 得到第一拼接语料, 并将该语料样本中的目标语料和第二
语料进行拼接处 理, 得到第二 拼接语料;
将所述第一拼接语料和所述第 二拼接语料输入到所述初始相似度分值预测模型中, 获
得所述初始相似度分值预测模型针对该第一拼接语料输出的第一相似度分值以及针对该
第二拼接语料输出的第二相似度分值;
根据所述第 一相似度分值和所述第 二相似度分值, 确定该被设置相关度标签的语料样
本的相关度概率; 所述相关度概率表示第一语料与目标语料的相关度大于第二语料与目标
语料的相关度的概 率;
根据所述相关度概率和该语料样本的相关度标签, 不断调整所述初始相似度分值预测
模型中的网络参数, 直至交叉熵损失函数达 到收敛状态时, 得到相似度分值预测模型。
7.一种文档排序装置, 其特 征在于, 所述 排序装置包括:
召回模块, 用于在接收到用户输入的查询语句之后, 召回与该查询语句相关的多个候
选文档; 每 个候选文档中包括与该查询语句 相关的关联语句;
拼接模块, 用于针对每个候选文档 中的关联语句, 将该查询语句和该候选文档 中的关
联语句进行拼接处 理, 获得拼接语料;
计算模块, 用于将该拼接语料输入到预先训练好的相似度分值预测模型中, 获得该候
选文档的相似度分值; 所述相似度分值表示该候选文档中的关联语句与所述查询语句的相
似度;
排序模块, 用于根据每个候选文档的相似度分值, 确定所述多个候选文档的文档排序
结果。
8.根据权利要求7所述的排序装置, 其特征在于, 所述排序装置还包括: 训练模块, 所述
训练模块用于:
获取语料训练数据集;
基于所述语料训练数据集训练初始相似度分值预测模型, 获得相似度分值预测模型。
9.一种电子设备, 其特征在于, 包括: 处理器、 存储器和总线, 所述存储器存储有所述处
理器可执行 的机器可读指令, 当电子设备运行时, 所述处理器与所述存储器之间通过所述
总线进行通信, 所述机器可读指 令被所述处理器运行时执行如权利要求 1至6任一所述的文
档排序方法的步骤。
10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机程
序, 所述计算机程序被处理器运行时执行如权利要求1至6任一所述的文档排序方法的步骤。权 利 要 求 书 2/2 页
3
CN 115098668 A
3
专利 一种文档排序方法、排序装置、电子设备和存储介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:09:22上传分享