(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210516053.3
(22)申请日 2022.05.12
(71)申请人 南京优慧信安科技有限公司
地址 210012 江苏省南京市雨 花台区西春
路1号创智大厦南楼一楼- 019
(72)发明人 杨鹏 戈妍妍 张朋辉
(74)专利代理 机构 南京众联专利代理有限公司
32206
专利代理师 杜静静
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/332(2019.01)
G06F 16/951(2019.01)
G06F 40/284(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种基于子主题建模的关键词生成方法
(57)摘要
本发明公开了一种基于子主题建模的关键
词生成方法, 所述方法包括以下步骤: 步骤1: 新
闻文本数据采集; 步骤2: 数据预处理; 步骤3: 模
型训练; 步骤4: 模型测试与关键词文本生成。 本
发明能够改善现有关键词生成方法中依赖文本
完整语义作为基本解码单元, 导致模 型无法有效
建模“文本‑关键词”一对多映射关系, 进而影响
生成的关键词多样性的问题。 通过子主题作为解
码单元提高生成关键词的质量。
权利要求书3页 说明书5页 附图2页
CN 115017260 A
2022.09.06
CN 115017260 A
1.一种基于 子主题建模的关键词生成方法, 其特 征在于, 所述方法包括以下步骤:
步骤1: 新闻文本数据采集;
步骤2: 数据预处 理;
步骤3: 模型训练;
步骤4: 模型测试与关键词生成。
2.根据权利要求1所述的基于子主题建模的关键词生成方法, 其特征在于, 步骤1: 新闻
文本数据采集, 具体如下, 所述通过爬虫工具采集多个新闻平台新闻文本, 积累样本数据
集, 数据集中的一个样本包括 新闻文本和其对应的参 考关键词。
3.根据权利要求1所述的基于子主题建模的关键词生成方法, 其特征在于, 步骤2: 数据
预处理; 具体如下, 首先对数据进 行数据清洗, 保留包含新闻文本以及参考关键词的数据并
过滤重复数据, 利用nltk库对样本文本进行分句处理, 通过jieba库实现分词处理, 以便后
续模型对 数据进行向量化表示, 最后, 将数据集分别处理为二元组的形式, 其中多个关键词
通过分号连接, 以便 于后续步骤的应用。
4.根据权利要求1所述的基于子主题建模的关键词生成方法, 其特征在于, 步骤3: 模型
训练, 在输入层对文本进 行分句, 再将文本和关键词进 行分词处理, 并利用Word2Vec进行向
量初始化, 生成词嵌入向量, 在编码层, 首先利用Bi ‑GRU编码器对文本句子和关键词进 行编
码, 获得单词上下文语义信息, 然后利用池化得到句子的向量表示和关键词的表示, 接着利
用多头自注意力机制获得句 子在整个文本语境下 的特征向量, 在子主题发现层, 获得文本
的若干子主题, 并通过采样获得子主题的向量表 示, 最后在关键词生 成层, 设计了一种子主
题感知的多解码 器组, 利用子主题为解码单元的模式, 并行生成目标关键词集合。 最后利用
训练损失函数训练所述模型;
5.根据权利要求1所述的基于子主题建模的关键词生成方法, 其特征在于, 步骤4: 模型
测试与关键词生成, 根据训练所得到的最佳模型, 对待预测关键词的文本进行关键词的生
成。 先对测试文本进 行预处理, 然后根据步骤2构建模型的输入形式, 最后根据步骤3中训练
好的关键词生成模型, 生成测试文本的关键词, 并对生成的关键词与参考的关键词进行比
较, 利用准确性F1值和多样性评价指标进行评价, 检验生成关键词的质量。
6.根据权利要求1所述的基于子主题建模的关键词生成方法, 其特征在于, 步骤3, 模型
训练, 具体如下, 利用步骤2处理后的数据集对基于自主体建模的关键词生成模型进行训
练, 该步骤的实施可以分为以下子步骤:
子步骤3‑1, 构建输入层, 首先选择训练集中出现频率靠前的50k单词构 建词汇表, 若该
词在Word2Vec中存在, 则选择Word2Vec中向量作为其训练初始化向量, 否则将其向量随机
初始化, 然后将输入文本单词序列根据词汇 表映射为索引序列, 并转 化为词向量表示,
子步骤3‑2, 构建文本编码层, 采用一个双层Bi ‑GRU循环神经网络编码器分别 对原文词
向量序列Esi和参考词的词向量序列Eyj进行语义编码提取, 计算上下文语义表示的公式如
(1)和(2):
其中, Esi表示原文第i个句子词向量矩阵, Eyj表示第j个短语的词向量矩阵, s表示输入权 利 要 求 书 1/3 页
2
CN 115017260 A
2文档, y表示关键词, Mean表示平均池化;
采用多层Transformer编码器对句子向量进行编码, 定义编码器输入为
并定义
m为句子数目, Transformer对向量更新如公式(3):
其中,
表示第i层Transformer的输出 结果;
子步骤3‑3, 构建子主题发现层, 基于K ‑Means聚类算法为输入文档构建k个子主题, 具
体实施如下:
1)随机选择k个句子表示初始的簇中心;
2)计算句子到各个中心的距离, 并将其分配给距离最小的簇。 其中距离为两个向量表
示之间的余弦距离;
3)根据簇中所有句子的平均值计算 一个新的中心;
4)重复步骤2和3, 直到中心向量 不再更新或达 到最大迭代次数。
通过上述步骤, 可以得到文本的子主题集 合, 可形式化表示公式(4):
{e1,e2,…,ek}=K–Means(Hs) (4)
其中, ei为m维二元向量, m为文本句子的数目。
子步骤3‑4, 构建关键词解码层, 主要通过设计一种聚焦不同子主题的多解码器组并行
生成关键词, 解码器组中每 个解码器采用结合复制机制的单向GRU实现, 具体实施如下:
首先, 计算第i个子主题的向量表示的公式(5):
ci=Mean(Hs,ei) (5)
在训练时需通过距离函数为每 个子主题分配目标关键词, 如公式(6)所示:
其中,
表示第j个关键词的向量表示, 在得到和 所有短语的距离之后, 选在距离最短
的作为解码时的目标;
由于解码器组中各个解码器生成过程相同, 后 续将具体描述其中一个解码器的工作过
程,假设第a个子主题分配的关键词序号 也为a,
假设潜变量 服从多元高斯分布, 并通过公式(7)和公式(8)计算高斯分布参数:
通过重参 技巧采样 潜变量z, 训练阶段
测试时
在解码时间步t时, 利用公式(9)输入前一单词ut‑1和状态st‑1, 得到当前隐藏状态, 公式
(10)表示 解码器的初始化,
st=GRU(ut‑1,st‑1) (9)s0=z (10)
之后, 基于注意力机制, 利用公式(11)计算输入文本中每个单词的注意力权重, 并通过
公式(12)加权求和得到当前 上下文表示向量:权 利 要 求 书 2/3 页
3
CN 115017260 A
3
专利 一种基于子主题建模的关键词生成方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:48上传分享