说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210761271.3 (22)申请日 2022.06.30 (71)申请人 中国人民解 放军国防科技大 学 地址 410073 湖南省长 沙市开福区砚瓦池 正街47号 (72)发明人 李莎莎 林吴航 余杰 马俊  纪斌 汤勇韬 李彦武 刘甚灵  (74)专利代理 机构 湖南兆弘专利事务所(普通 合伙) 43008 专利代理师 谭武艺 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/34(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 一种基于文本匹配的文本摘要质 量评估方 法及系统 (57)摘要 本发明公开了一种基于文本匹配的文本摘 要质量评估 方法及系统, 本发明基于文本匹配的 文本摘要质量评估方法包括将待评估的文本摘 要及其对应的原文输入预先完成训练的文本摘 要质量评估模型以得到待评估的文本摘要对应 的质量评估 结果, 所述文本摘要质量评估模型包 括分别用于衡量相关性、 一致性、 连贯性、 流畅性 共四种细粒度质量的语义子模型, 所述语义子模 型的输入为待评估的文本摘要及其对应的原文、 输出为对应细粒度质量的质量评估 结果。 本发明 可从语义的角度出发捕捉摘要质量的细微差别, 避免了与单一参考摘要的强制对齐而导致对摘 要文本多样性的抑制, 具备了优秀的模型性能、 质量解释性好的优点, 可实现全 方位衡量摘要质 量的目的。 权利要求书2页 说明书11页 附图5页 CN 115329036 A 2022.11.11 CN 115329036 A 1.一种基于文本匹配的文本摘要质量评估方法, 其特征在于, 包括将待评估的文本摘 要及其对应的原文输入预先完成训练的文本摘要质量评估模型以得到待评估的文本摘要 对应的质量评估结果, 所述文本摘要质量评估模型包括分别用于衡量相关性、 一致性、 连贯 性、 流畅性共四种细粒度质量的语义子模型, 所述语义子模型 的输入为待评估的文本摘要 及其对应的原文、 输出为对应细粒度质量的质量评估结果。 2.根据权利要求1所述的基于文本匹配的文本摘要质量评估方法, 其特征在于, 所述 四 种细粒度质量的语义子模型结构相同, 均包括预训练后的交互编码器Cross ‑Encoder和基 于多层感知机的回归模型; 所述交互编码器Cross ‑Encoder的输入为待评估的文本摘要及 其对应的原文, 且输入的第一个标记为令牌字符[ CLS]、 待评估的文本摘要及其对应的原文 之间采用分隔字符[SEP]分隔, 且将令 牌字符[CLS]对 应的最终隐藏状态V[CLS]作为提取得到 的最终特征; 所述基于多层感知机的回归模型用于将最终特征映射为指定区间的预测分 数。 3.根据权利要求2所述的基于文本匹配的文本摘要质量评估方法, 其特征在于, 用于衡 量相关性、 一致性的语 义子模型中, 令 牌字符[CLS]对 应的最终隐藏状态V[CLS]的计算函 数表 达式为: V[CLS]=Cross‑Encoder([CLS],O,[ SEP],S) 上式中, Cross ‑Encoder表示交互编码器Cross ‑Encoder, [CLS]为令牌字符, O为原文, [SEP]为分隔字符, S为待评估的文本摘要; 用于衡量连贯性、 流畅性的语义子模型中, 令牌字符[CLS]对应的最终隐藏状态V[CLS]的 计算函数表达式为: V[CLS]=Cross‑Encoder([CLS],[ SEP],S) 上式中, Cross ‑Encoder表示交互编码器Cross ‑Encoder, [CLS]为令牌字符, [SEP]为分 隔字符, S为待评估的文本摘要。 4.根据权利要求2所述的基于文本匹配的文本摘要质量评估方法, 其特征在于, 基于多 层感知机的回归 模型将最终特 征映射为指定区间的预测分数的函数表达式为: y=WV[CLS]+b 上式中, y为预测分数, 权 重W和偏置量b为可训练的网络参数。 5.根据权利要求1所述的基于文本匹配的文本摘要质量评估方法, 其特征在于, 所述 四 种细粒度质量的语义子模型训练时所采用的损失函数均为: 上式中, L为损失函数, N为训练样本数量, y为细粒度质量的语义子模型输出的预测分 数, y′为训练样本的拟合标注分数。 6.根据权利要求1所述的基于文本匹配的文本摘要质量评估方法, 其特征在于, 所述将 待评估的文本摘要及其对应的原文输入预先完成训练的文本摘要质量评估模型之前, 还包 括训练每一种细粒度质量的语义子模型的步骤: S1、 针对该细粒度质量的语义子模型的初 始子模型M0, 使用有标签的数据集进行首轮监 督训练, 得到最优子模型M0best;权 利 要 求 书 1/2 页 2 CN 115329036 A 2S2、 针对得到的最优子模型M0best, 使用无标签的训练数据集进行多轮的半监督训练以 利用无标签的训练数据提高语义子模型的性能, 得到最优的细粒度质量的语义子模型 Mbest。 7.根据权利要求6所述的基于文本匹配的文本摘要质量评估方法, 其特征在于, 步骤S1 包括: S1.1, 将最优子模型M0best初始化为该细粒度质量的语义子模型的初始子模型M0; S1.2, 使用有标签的训练数据集Dtrain针对最优子模型M0best进行共指定数量ep次有监督 的调优训练, 且针对其中任意第i次训练得到的子模型Mi+1, 将有标签的验证数据集Deval分 别对子模型Mi+1、 当前的最优子模型M0best进行验证, 若子模型Mi+1的验证结果优于当前的最 优子模型M0best的验证结果, 则将子模型Mi+1作为新的当前的最优子模型M0best, 否则保持当 前的最优子模型M0best不变; 最终, 在完成指定数量 ep次有监督的调优训练, 将最后的最优 子 模型M0best作为最终得到的最优子模型M0best。 8.根据权利要求6所述的基于文本匹配的文本摘要质量评估方法, 其特征在于, 步骤S2 包括: S2.1, 将有标签的训练数据集Dtrain加入训练数据集D, 将 最优的细粒度质量的语义子模 型Mbest初始化为最优子模 型M0best; 将无标签的训练数据集划分为k份, 得到无标签的训练数 据集D1~Dk; 将循环变量t初始化 为1以开始遍历无 标签的训练数据集D1~Dk; S2.2, 使用上一轮t ‑1的最优子模型Mt‑1best为第t个无标签的训练数据集Dt进行标注, 得 到对应的伪标签数据集 并将伪标签数据集 加入训练数据集D; S2.3, 将本轮t的最优子模型Mtbest初始化为该细粒度质量的语义子模型 的初始子模型 M0; S2.4, 使用训练数据集D针对本轮t的最优子模型Mtbest进行共指定数量ep次有监督的调 优训练, 且针对其中任意第i次训练得到的子模型Mi+1, 将有标签的验证数据集Deval分别对 子模型Mi+1、 本轮t的最优子模型Mtbest进行验证, 若子模型Mi+1的验证结果优于本轮t的最优 子模型Mtbest的验证结果, 则将子模型Mi+1作为新的本轮t的最优子模型Mtbest, 否则保持当前 的本轮t的最优子模型Mtbest不变; 最终, 在完成指定数量ep次有监督的调优训练, 将最后的 本轮t的最优子模型Mtbest作为最终得到的本轮t的最优子模型Mtbest; S2.5, 将有标签的验证数据集Deval分别对本轮t的最优子模型Mtbest、 最优的细粒度质量 的语义子模型Mbest进行验证, 若本轮t的最优子模型Mtbest的验证结果优于最优的细粒度质 量的语义子模型Mbest的验证结果, 则将本轮t的最优子模型Mtbest作为新的最优的细粒度质 量的语义子模型Mbest, 否则保持最优的细粒度质量的语义子模型Mbest不变; S2.6, 判断循环变量t大于k是否成立, 若成立则输出最终得到的最优的细粒度质量的 语义子模型Mbest, 结束并退 出; 否则, 将循环变量t加1, 跳转 步骤S2.2。 9.一种基于文本匹配的文本摘要质量评估系统, 包括相互连接的微处理器和存储器, 其特征在于, 该微处理器被编程或配置以执行权利要求 1~8中任意一项 所述基于文本匹配 的文本摘要质量评估方法的步骤。 10.一种计算机可读存储介质, 所述计算机可读存储介质中存储有计算机程序, 其特征 在于, 该计算机程序用于被微处理器编程或配置以执行权利要求 1~8中任意一项 所述基于 文本匹配的文本摘要质量评估方法的步骤。权 利 要 求 书 2/2 页 3 CN 115329036 A 3

.PDF文档 专利 一种基于文本匹配的文本摘要质量评估方法及系统

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于文本匹配的文本摘要质量评估方法及系统 第 1 页 专利 一种基于文本匹配的文本摘要质量评估方法及系统 第 2 页 专利 一种基于文本匹配的文本摘要质量评估方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:07:58上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。