说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210811645.8 (22)申请日 2022.07.11 (71)申请人 电子科技大 学 地址 611731 四川省成 都市高新区 (西区) 西源大道 2006号 (72)发明人 孙靖哲 许文波 贾海涛 张博阳  李家伟 高源  (51)Int.Cl. G06F 16/34(2019.01) G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/242(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于Seq2Seq模型的降低文本摘要 参数 量方法 (57)摘要 本发明公开了一种优化Seq2Seq模 型的降低 文本摘要参数量的方法。 首先通过遍历训练集内 容, 和BERT原生词典取交集, 并根据数据集情况 选定合适的阈值, 将低频词过滤, 降低词表数量, 降低分类数量; 其次通过共享BART模型中 Encoder和Decoder 部分的词嵌入层的参数, 进一 步降低参数量。 使用B ART模型, 使得Encoder在理 解原文时, 可 以结合上下文的语义信息, 语义理 解效果更好; 在生成摘要时, Decoder通过Mask机 制单向生成, 符合文本续写的逻辑。 权利要求书1页 说明书5页 附图3页 CN 115186090 A 2022.10.14 CN 115186090 A 1.一种基于Seq2Seq模型的降低文本摘要参数量方法, 其特征在于, 具体包括如下步 骤: 步骤1, 使用微博摘 要数据集, 基于BART预训练模型, 进行数据清洗, 划分训练集和测试 集。 步骤2, 遍历训练集文本数据, 根据训练集文本数据, 和BERT原生词典, 建立 新的词典。 步骤3, 根据新词典, 建立 新的分词器。 步骤4, 使用新的分词器, 结合Encoder中的n n.Embedding(), 构建新的词嵌入向量。 步骤5, 将BART模型中的Encoder和Decoder中的词嵌入层, 进行参数共享。 步骤6, 将训练集喂入 缩减词表的参数共享后的BART模型, 进行微调, 即Fi ne‑Tuning。 步骤7, 使用测试集, 进行文本摘要的预测。 2.如权利要求1所述方法, 其特征在于, 步骤1中, 涉及到的数据清洗主要包括去除空 格、 去除表情符号、 繁体中文和简体中文的转换、 中英文标点符号的转换、 将每条数据写成 统一的格式。 3.如权利要求1所述方法, 其特 征在于, 步骤2中, 建立 新词典的操作流 程大致为: 首先, 读取BERT词典, 按照先后顺序编号, 存 储为dict格式。 其次, 读取训练集数据, 以 “字”为单位, 进行遍历和词频统计, 构建另一个dict字典。 再次, 设置一个最小词频的阈值, 对低频词进行 过滤。 最后, 对训练集的词典进行遍历, 若该字在BERT原生词典中出现过, 则添加到新词典 中。 4.如权利 要求1所述方法, 其特征在于, 步骤5中提及的参数共享, 主要通过Tensorflow 中的tf.get_variable、 tf.variable_scope()和reuse_variables()来实现。权 利 要 求 书 1/1 页 2 CN 115186090 A 2一种基于Seq2Seq模型的降低文本摘要参数量方 法 技术领域 [0001]本发明涉及摘要 自动生成领域, 具体而言, 涉及一种基于NLP技术的中文摘  要自 动生成方法及系统。 背景技术 [0002]文本摘要是指通过各种技术, 对文本或者是文本的集合, 抽取、 总结或是精  炼其 中的要点信息, 用以概括和展示原始文本的主要内容或大意。 因为文本摘要  技术, 尤其是 生成式文本摘要, 涉及到很深层次的自然语 言处理(自然语言理解、  自然语言生成等)的能 力, 所以一直以来它都是自然语言技术的一个研究难点。  目前常用的文本摘要技术, 主要 可以分为两类: 抽取式文本摘要和生成 式文本摘  要。 抽取式文本摘要, 顾名思义, 就是从文 档或者文档集中抽取其中的一句或者  几句话, 构成摘要。 通过对文档中句子的得分进行计 算, 得分代表重要性程度,  得分越高代表句子越重要, 然后通过依次选取得分高的若干个 句子组成摘要, 摘  要的长度取决于压缩率。 这种 方案的好处在于简单实用, 不会完全脱离 于文档本  身。 尽管有其优点, 但也可能有着生成摘要不连贯、 字数不好控制、 目标句主旨   不明确等缺点, 甚至可以说, 其摘要好坏决定于原文。 而生成式文本摘要就没有  这样的问 题, 生成式摘要方法不是单纯地利用原文档中的单词或短语组成摘要,  而是从原文档中获 取主要思想后以不同的表达方式将其表达出来。 生成式摘要方  法为了传达原文档的主要 观点, 可以重复使用原文档中的短语和 语句, 但总体上  来说, 摘要需要用作者自己的话来 概括表达。 生成 式摘要方法需要利用自然语言  理解技术对原文档进 行语法语义的分析, 然 后对信息进行融合, 通过自然语言生  成的技术生成新的文本摘要。 发明内容 [0003]本发明的主要目的在于提供一种优化Seq2Se q模型的降低文本摘要参数量方  法, 以降低基于Seq2Seq模型的生成式摘要的参数量。 [0004]为了实现上述目的, 根据本发明的一个方面, 提供了一种优化Seq2Seq模型  的降 低文本摘要参数量方法, 包括如下步骤: [0005]步骤1, 使用微博摘要数据集, 基于BART预训练模型, 进行数据清洗, 划  分训练集 和测试集。 [0006]步骤2, 遍历训练集文本数据, 根据训练集文本数据, 和BERT原生词典,  建立新的 词典。 [0007]步骤3, 根据新词典, 建立 新的分词器。 [0008]步骤4, 使用新的分词器, 结合Encoder中的nn.Embedding(), 构 建新的词嵌  入向 量。 [0009]步骤5, 将BART模型中的Encoder和Decoder中的词嵌入层, 进行参数共  享。 [0010]步骤6, 将训练集喂入缩减词表的参数共享后的BART模型, 进行微调, 即  Fine‑ Tuning。说 明 书 1/5 页 3 CN 115186090 A 3

.PDF文档 专利 一种基于Seq2Seq模型的降低文本摘要参数量方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于Seq2Seq模型的降低文本摘要参数量方法 第 1 页 专利 一种基于Seq2Seq模型的降低文本摘要参数量方法 第 2 页 专利 一种基于Seq2Seq模型的降低文本摘要参数量方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:07:13上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。