(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210744348.6
(22)申请日 2022.06.28
(71)申请人 中国人民解 放军63768部队
地址 710699 陕西省西安市临潼区书院东
路12号
申请人 西安工业大 学
(72)发明人 刘军 徐飞 彭佳佳 陈芾珩
贠曼
(74)专利代理 机构 西安通大专利代理有限责任
公司 6120 0
专利代理师 李鹏威
(51)Int.Cl.
G06F 16/34(2019.01)
G06F 40/289(2020.01)
G06F 40/216(2020.01)G06F 40/242(2020.01)
G06F 40/30(2020.01)
G06F 17/16(2006.01)
(54)发明名称
一种新闻自动摘要方法及系统
(57)摘要
本发明公开了一种新闻自动摘要方法及系
统, 基于MF ‑TextRank算法生成自动文本摘要模
型为抽取式摘要, 引入Word2vec模型进行文本语
义表示, 解决了矩阵稀疏和维数爆炸的问题, 同
时提高了语义表达程度; 计算句子与标题的相似
度, 根据IF ‑IDF算法获得新闻关键词, 计算句子
中心性; 结合标题特征, 中心性特征以及句间相
似度, 通过实验调整权重因子, 迭代计算直至收
敛, 选取句子节点权重靠前的进行新闻摘要抽
取; 本文给出的方法更好的挖掘文本信息, 不遗
漏关键信息, 充分利用领域信息, 得到一个面向
领域的冗余度低、 可读性较高的新闻摘要。
权利要求书2页 说明书9页 附图3页
CN 114996444 A
2022.09.02
CN 114996444 A
1.一种新闻自动摘要方法, 其特 征在于, 包括以下步骤:
S1, 对新闻文本进行 预处理, 首先进行分句处 理, 根据分句结果进行分词, 去停用词;
S2, 计算分词处 理后的新闻文本中句子与标题的相似度;
S3, 利用IF ‑IDF模型获取新 闻文本中的关键词, 通过爬取新 闻相关领域词, 构 建领域词
典, 结合关键词和领域词计算句子中心性;
S4, 将文本预处 理后的句子进行 特征向量表示, 计算句子间的相似度;
S5, 根据句子与标题 的相似度、 句子中心性和句子间的相似度迭代计算调整后的句子
相似度矩阵直至收敛, 根据句子权重大小进 行排序, 得到相应的句子排序, 选取句子权重排
序靠前的句子作为 最终摘要。
2.根据权利要求1所述的一种新闻自动摘要方法, 其特征在于, 按照标点符号进行分句
处理, 对分句处 理后小于七个字的短句进行删除。
3.根据权利要求1所述的一种新闻自动摘要方法, 其特征在于, 对标题进行分词并去停
用词, 然后对标题中的关键词赋权重, 根据关键词权重计算句子权重, 作为句子与标题的相
似度:
4.根据权利要求1所述的一种新闻自动摘要方法, 其特征在于, 句子的中心性得分计算
公式如下:
其中Wc,k表示新闻中第k个句子的重要性得分, kw=ks∩kos, KW=ks∪kos, ks表示第k
个句子中包含的关键词, kos表示除第k个句子外, 其他句子中包含的关键词, w表示关键词
词的权重。
5.根据权利要求 4所述的一种新闻自动摘要方法, 其特 征在于, 领域词的权 重为0.5。
6.根据权利要求1所述的一种新闻自动摘要方法, 其特征在于, 通过词向量将单词转换
为1*100维的向量, 所有词向量相加求平均值, 则句子可以表示 为:
其中si表示新闻中的第i个句子, w ′i表示senti中的第i个单词的词向量, 则两句子相似
度的计算公式表示 为:
其中, cos(si,sj)为句子si, sj的相似度, n为词向量的维数; sik为si向量第k维的值, sjk权 利 要 求 书 1/2 页
2
CN 114996444 A
2为sj向量第k维的值。
7.根据权利要求1所述的一种新闻自动摘要方法, 其特征在于, 综合考虑各部分权重影
响因子, 构建句子 权重计算公式:
WT= λtWt+λcWc+λfWf
其中λ为影响各部分权 重的影响因子, Wf为句间相似度, WT为最终的句子 权重。
8.根据权利要求7所述的一种新闻自动摘要方法, 其特征在于, λ是根据实验分析调优
后的加权系数, 取值范围为0~1, 且 λt+λc+λf=1。
9.根据权利要求8所述的一种新闻自动摘要方法, 其特征在于, λt=0.2, λc=0.1, λf=
0.7。
10.一种新闻自动摘要系统, 其特征在于, 包括预处理模块, 特征计算模块和摘要生成
模块:
预处理模块用于对新闻文本进行预处理, 首先进行分句处理, 根据分句结果进行分词,
去停用词;
特征计算模块用于计算分词处理后的新 闻文本中句子与标题的相似度; 利用IF ‑IDF模
型获取新闻文本中的关键词, 通过爬取新闻相关领域词, 构建领域词典, 结合关键词和领域
词计算句子中心性; 将文本预处 理后的句子进行 特征向量表示, 计算句子间的相似度;
摘要生成模块用于根据句子与 标题的相似度、 句子 中心性和句子间的相似度迭代计算
调整后的句子相似度 矩阵直至收敛, 根据句子权重大小进行排序, 得到相应的句子排序, 选
取句子权重排序靠前的句子作为 最终摘要。权 利 要 求 书 2/2 页
3
CN 114996444 A
3
专利 一种新闻自动摘要方法及系统
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:09:24上传分享