(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210639620.4
(22)申请日 2022.06.08
(65)同一申请的已公布的文献号
申请公布号 CN 114741499 A
(43)申请公布日 2022.07.12
(73)专利权人 杭州费尔斯 通科技有限公司
地址 310000 浙江省杭州市滨江区西兴街
道阡陌路482号B楼第七层
(72)发明人 周泽伟 杨红飞 金霞 程东
(74)专利代理 机构 杭州创智卓英知识产权代理
事务所(普通 合伙) 33324
专利代理师 季健康
(51)Int.Cl.
G06F 16/34(2019.01)
G06F 40/117(2020.01)
G06F 40/205(2020.01)G06F 40/30(2020.01)
(56)对比文件
CN 113822038 A,2021.12.21
EP 1071023 A 2,2001.01.24
CN 112732899 A,2021.04.3 0
WO 202019 9947 A1,2020.10.08
US 2022030110 A1,202 2.01.27
CN 111581374 A,2020.08.25
CN 103246687 A,2013.08.14
陈戈等.基 于潜在语义索引和句子聚类的中
文自动文摘. 《计算机 仿真》 .20 08,(第07期),第
82-85页.
Guo Yuqi ng等.Automatic abstracti ng in
domain-independent C hinese documents.
《Journal of Tsi nghua Un iversity (Science
and Technology)》 .20 02,第139-142页.
审查员 程一峰
(54)发明名称
一种基于句子语义模型的文本摘要生成方
法和系统
(57)摘要
本申请涉及一种基于句子语义模型的文本
摘要生成方法和系统, 其中, 该方法包括: 获取文
本与文本标签, 对文本进行语句划分, 并对划分
后的文本语句进行切词处理, 得到词向量; 根据
词向量聚合得到文本语句向量, 根据文本语句向
量与文本标签, 获取待生 成的文本摘要所在的段
落; 计算待生成的文本摘要所在的段落中每个文
本语句向量与文本标签的语义距离, 并对语义距
离按照由近及远的规则进行排序, 确定最终的文
本摘要。 通过本申请, 不仅可以解决关键词频数
方法的使用范围局限、 逻辑不灵活和可扩展性差
的问题, 还能兼顾模型准确率与模 型预测时间的
平衡性, 即能同时保证模型准确率与模型的预测
时间可用性。
权利要求书2页 说明书7页 附图2页
CN 114741499 B
2022.09.06
CN 114741499 B
1.一种基于句子语义模型的文本摘要生成方法, 其特 征在于, 所述方法包括:
获取文本与文本标签, 对所述文本进行语句划分, 并对划分后的文本语句进行切词处
理, 得到词向量;
根据所述词向量聚合得到文本语句向量, 根据所述文本语句向量与所述文本标签, 获
取待生成的文本摘要 所在的段落, 具体步骤包括: 根据文本语句向量与文本标签, 通过自定
义计算方法, 计算得到待生成的文本摘要在整个文本中所在的段落, 计算公式如下式所示:
其中, KS为段落Paragraphk的语句个数, KP为文本的段落个数, Wi 为文本句子分词后
的词向量, DISTANCE(TEXT, V_SENTENCEk)为句子V_SE NTENCEk与标签向量TEXT的语 义距离,
DISTANCE(TEXT, Paragraphk)为段落Paragraphk与标签向量TEXT的语义距离, PARAGRAPH_
SELECT为待生成的文本摘要所在的段落;
计算所述待生成的文本摘要所在的段落中每个文本语句向量与所述文本标签的语义
距离, 并对所述语义距离按照由近及远的规则进行排序, 确定最终的文本摘要。
2.根据权利要求1所述的方法, 其特征在于, 根据 所述词向量聚合得到文本语句向量包
括:
根据所述词向量, 通过自定义计算方法聚合得到文本语句向量, 其中, 计算公式如下:
其中, Wi(Wij)为文本句子分词后的第i个词向量, n为词向量的维度, L为文本语句中的
词个数, V_SENTENC Ek为聚合得到的文本语句向量。
3.根据权利要求1所述的方法, 其特征在于, 计算所述待生成的文本摘要所在的段落中
每个文本语句向量与所述文本标签的语义距离包括:
通过自定义计算方法, 计算所述待生成的文本摘要所在的段落中每个文本语句向量与
所述文本标签的语义距离, 计算公式如下:
其中, PS_V_SENTENCEk为待生成的文本摘要所在的段落中每个文本语句向量, TE XT为文
本标签向量, W i 为文本句子分词后的词向量。
4.根据权利要求1所述的方法, 其特征在于, 对所述语义距离按照由近及远的规则进行
排序, 生成TopK语句包括:
通过自定义计算方法, 对所述语义距离按照由近及远的规则进行排序, 生成TopK语句,
计算公式如下:
权 利 要 求 书 1/2 页
2
CN 114741499 B
2其中, ORDER_DISTANCE(TEXT, PS_V_SENTENCEk)为每个文本语句与文本标签的语义距
离排序, PS_V_SENTENCEk为待生成的文本摘要所在的段落中每个文本语句向量, TEXT为文
本标签向量。
5.根据权利要求1所述的方法, 其特征在于, 对划分后的文本语句进行切词处理, 得到
词向量包括:
对所述划分后的文本语句进行切词处理, 得到多个词, 通过词向量生成法将得到的词
生成相应的词向量。
6.根据权利要求1所述的方法, 其特 征在于, 对所述文本进行语句划分包括:
以句号为基准, 对文本进行语句划分, 每遇 到一个句号则划分得到一个 语句。
7.一种基于句子语义模型的文本摘要生成系统, 其特 征在于, 所述系统包括:
语句划分模块, 用于获取文本与文本标签, 对所述文本进行语句划分, 并对划分后的文
本语句进行切词处 理, 得到词向量;
段落获取模块, 用于根据所述词向量聚合得到文本语句向量, 根据所述文本语句向量
与所述文本标签, 获取待生 成的文本摘要 所在的段落, 具体步骤包括: 根据文本语句向量与
文本标签, 通过自定义计算方法, 计算得到待生成的文本摘要在整个文本中所在的段落, 计
算公式如下式所示:
其中, KS为段落Paragraphk的语句个数, KP为文本的段落个数, Wi 为文本句子分词后
的词向量, DISTANCE(TEXT, V_SENTENCEk)为句子V_SE NTENCEk与标签向量TEXT的语 义距离,
DISTANCE(TEXT, Paragraphk)为段落Paragraphk与标签向量TEXT的语义距离, PARAGRAPH_
SELECT为待生成的文本摘要所在的段落;
摘要生成模块, 用于计算所述待生成的文本摘要所在的段落中每个文本语句向量与 所
述文本标签的语义距离, 并对所述语义距离按照由近及远的规则进行排序, 确定最终的文
本摘要。
8.一种电子装置, 包括存储器和处理器, 其特征在于, 所述存储器中存储有计算机程
序, 所述处理器被设置为运行所述计算机程序以执行权利要求1至6中任一项 所述的基于句
子语义模型的文本摘要生成方法。
9.一种存储介质, 其特征在于, 所述存储介质中存储有计算机程序, 其中, 所述计算机
程序被设置为运行时执行权利要求1至6中任一项所述的基于句 子语义模型 的文本摘要生
成方法。权 利 要 求 书 2/2 页
3
CN 114741499 B
3
专利 一种基于句子语义模型的文本摘要生成方法和系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:33上传分享