(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210742295.4
(22)申请日 2022.06.28
(71)申请人 西安工业大 学
地址 710021 陕西省西安市未央区学府中
路2号
申请人 中国人民解 放军63768部队
(72)发明人 徐飞 贠曼 刘军 彭佳佳
(74)专利代理 机构 西安通大专利代理有限责任
公司 6120 0
专利代理师 李鹏威
(51)Int.Cl.
G06F 16/34(2019.01)
G06F 40/30(2020.01)
G06F 40/289(2020.01)
G06F 40/258(2020.01)G06F 40/211(2020.01)
G06F 40/194(2020.01)
G06F 40/166(2020.01)
G06F 40/151(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于TextRank与多维语义特征融合的
自动摘要方法及系统
(57)摘要
本发明公开了一种基于TextRank与多维语
义特征融合的自动摘要 方法及系统, 通过对预处
理后的新闻进行新闻关键词提取、 新闻主题的获
取、 句子的特征信息以及句子的向量表示, 将句
子与主题相似度、 句子与标题相似度、 关键词覆
盖率、 是否含 特征词四种因素作为影 响句子权重
的影响因素, 并将它们和TextRank原分数以一种
优化的组合应用到自动摘要中, 将 TextRank 分数
和句子特征分数相加取平均数得到句子综合分
数, 利用MMR算法计算句子间的相似度来去除冗
余度较高的句子, 最后根据相似度排序按设定个
数取前n个句子作为摘要, 高了原有公式去除冗
余句的效率, 能够准确获取新闻的摘要内容, 大
大提高了新闻内容概况准确性, 从而帮助人们减
少阅读的时间。
权利要求书2页 说明书11页 附图4页
CN 115017300 A
2022.09.06
CN 115017300 A
1.一种基于TextRank与多维语义特征融合的自动摘要方法, 其特征在于, 包括以下步
骤:
S1, 对原始新闻除去无用的符号、 空格;
S2, 对预处理后的新闻进行新闻关键词提取、 新闻主题的获取、 句子的特征信息以及句
子的向量表示;
S3, 将步骤S2获取的新闻关键词、 新 闻主题、 句子的特征信息以及句子的向量表示转化
成各自的特征分数, 然后将各自的特征分数按比例相加得到句子特征分数; 同时采用
TextRank方法对句子的向量表示进行巨资建相似度计算, 得到句子的TextRank分数, 将
TextRank分数和句子特 征分数相加取平均数 得到句子综合分数;
S4, 利用MMR算法计算句子 间的相似度来去除冗余度较高的句子, 最后根据相似度排序
按设定个数 取前n个句子作为摘要。
2.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法, 其
特征在于, 新闻关键词 通过TF‑IDF方法和新闻所属领域的领域词共同得到; 新闻主题的获
取由LDA模 型通过无监督方法训练得到; 句子的特征信息则是判断句中是否含有 特征词; 句
子的向量表示则是通过W ord2vec深度学习的方法训练出词向量, 进 而得到句向量。
3.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法, 其
特征在于, 根据词语权重的加权公式在TF ‑IDF算法得到候选 关键词的基础上进 行加权后得
到候选关键词:
weight(i,M)=h ×count(i,M)
其中, 表示单词i在文本M中的权重; 表示单词i在文本M出现的频率, 由TF ‑IDF算法计算
得出; h为词性影响因子, 根据名词和动词不同的重要性可分别赋予不同的权 重。
4.根据权利要求3所述的一种基于TextRank与多维语义特征融合的自动摘要方法, 其
特征在于, 对特定领域建立出一个该领域较为关心的领域词词典, 若文中含有定义的领域
词, 则将该 领域词和上述经 过TF‑IDF算法得 出的候选关键词一 起提出作为本文的关键词。
5.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法, 其
特征在于, 采用基于LDA(Latent Dirichlet Allocation)主题生成模型来得到文档的主题
分布和句子的主题分布, 其中, 文档的主题分布可直接由LDA生成模型的参数得到, 句子的
主题分布公式如下:
其中, P(Wi|T)表示该主题下词语Wi的分布概率, 由LDA模型参数φ得到; len(S)表示句
子S的长度。
6.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法, 其
特征在于, 句子的特 征信息包括关键词: 据报道、 据说、 总而言之、 表明、 因此和显然。
7.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法, 其
特征在于, 利用加 和取平的方式的得到句向量, 通过句向量 来表示句子的整体 语义信息:
权 利 要 求 书 1/2 页
2
CN 115017300 A
2其中,
表示句子S的句向量; 表示构成句子 的各个词语的空间向量; n为句子长度; 由
word2vec计算得 出的一个k维的空间向量组成。
8.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法, 其
特征在于, 句子关键词覆盖率得分:
其中, weight(j,M)表示得到的候选关键词权重; m表示句子S中含有的候选关键词个
数; n表示句子S中含有的领域词个数; W表示领域词的权 重, 为了平衡候选关键词权 重;
句子与主题相似度得分:
Theme(S)=1 ‑JS(P||Q)
通过1‑JS(P||Q), 可以得到若文档主题和句子主题相关性越大, 则句子权重越大的句
子权重计算公式, 且值 域范围依然控制在0 ‑1之间;
句子特征信息得分:
句子与标题相似性得分:
其中, 和表示句 子的句向量; 则表示句 子的相似度; 其中,
和
表示句子Si,Sj的句向
量; Similarity(Si,Sj)则表示句子Si,Sj的相似度。
9.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法, 其
特征在于, 基于 MMR算法提出去除冗余句, 增 加摘要的可读性:
MMR(Si)= λ×W(Si)‑(1‑λ )×max[Similarity(Si,D)]
其中, D为已入选的摘要句集 合。
10.一种基于TextRank与多维语义特征融合的自动摘要系统, 其特征在于, 包括预处理
模块, 特征提取模块, 句子打 分模块和摘要提取模块:
预处理模块, 对原 始新闻除去无用的符号、 空格;
特征提取模块, 对预处理后的新闻进行新闻关键词提取、 新闻主题的获取、 句子的特征
信息以及句子的向量表示;
句子打分模块, 将获取的新闻关键词、 新闻主题、 句子的特征信 息以及句子的向量表示
转化成各自的特征分数, 然后将各自的特征分数按比例相加得到句 子特征分数; 同时采用
TextRank方法对句子的向量表示进行巨资建相似度计算, 得到句子的TextRank分数, 将
TextRank分数和句子特 征分数相加取平均数 得到句子综合分数;
摘要提取模块, 计算句子间的相似度来去 除冗余度较高的句子, 最后根据相似度排序
按设定个数 取前n个句子作为摘要输出。权 利 要 求 书 2/2 页
3
CN 115017300 A
3
专利 一种基于TextRank与多维语义特征融合的自动摘要方法及系统
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:15上传分享