(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210708418.2
(22)申请日 2022.06.22
(71)申请人 南京邮电大 学
地址 210046 江苏省南京市栖霞区文苑路9
号
(72)发明人 王睿 陈佳怡 黄海平
(74)专利代理 机构 南京正联知识产权代理有限
公司 32243
专利代理师 姜梦翔
(51)Int.Cl.
G06F 40/126(2020.01)
G06F 40/284(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于词嵌入和生成式神经网络的主题
挖掘方法
(57)摘要
本发明公开了一种基于词嵌入和生成式神
经网络的主题挖掘方法, 属于自然语言处理领
域。 本方法包括: 对语料库中的文本进行预处理;
将文档词袋表 示作为编码器网络的输入, 将编码
器网络的输出作为表示该文档主题分布的主题
向量; 文档主题向量经过加噪后作为高斯解码器
的输入, 将高斯解码器的输出作为表 示该文档词
分布的生 成式词袋表示; 以自编码器网络的重构
损失和狄利克雷先验分布对齐的正则化损失最
小为目标, 对模型进行训练。 本发明利用多维高
斯分布在词向量空间对主题进行建模, 融入了词
向量中的外部语义知识, 有效提高了主题的一致
性; 同时采用优化最大平均差的方法进行狄利克
雷先验分布对齐, 提高了主题的准确性。
权利要求书4页 说明书9页 附图2页
CN 115099188 A
2022.09.23
CN 115099188 A
1.一种基于词嵌入和生成式神经网络的主题挖掘方法, 其特征在于, 具体包括如下步
骤:
S1、 对语料库中的文本进行 预处理, 将文档用词袋表示;
S2、 将步骤S1得到的文档词袋表示作为编码器网络的输入, 将编码器网络的输出作为
表示该文档主题分布的主题向量;
S3、 将步骤S2得到的文档主题向量经过加噪后作为高斯解码器的输入, 将高斯解码器
的输出作为表示该文档词分布的生成式词袋表示;
S4、 以自编码器网络的重构损 失和狄利克雷先验分布对齐的正则化损 失最小为目标,
对模型进行训练。
2.根据权利要求1所述的一种基于词嵌入和生成式神经网络的主题挖掘方法, 其特征
在于, 步骤S1中所述将文档用词 袋表示采用TF ‑IDF表示法, 所述TF ‑IDF表示法的具体计算
方法如下:
tf‑idfv,d=tfv,d×idfv
其中, nv,d表示词表第v个词出现在文档d中的次数, |D|表示语料中文档的个数, |Dv|表
示语料库中包含词表中第v个词的文档的个数; 因此, 每个文档可以被表示为一个V维的多
项式分布且第v维表示词表中第v个词与该文档的语义相关度。
3.根据权利要求2所述的一种基于词嵌入和生成式神经网络的主题挖掘方法, 其特征
在于, 步骤S2中所述编 码器网络由2个全连接层组成, 所述编码 器网络以真实语料中随机采
样的真实文档的V维向量表示
为输入, 并将其变换为K维服从多项式分布的文档 ‑主题分
布
所述步骤S2的具体实现步骤如下:
S201、 将真实语料中随机采样的真实文档的V维向量表示
输入编码器网络, 所述编码
器网络首 先通过如下变换将其映射到S维语义空间:
其中,
和
分别为两个表示层的权重矩阵和偏置项,
是经过批
归一化BN(·)的状态向量, leak是LeakyReLU激活函数的超参数,
为表示层的输出向量;权 利 要 求 书 1/4 页
2
CN 115099188 A
2S202、 编码器网络利用如下变换将
映射为K维的文档主题分布:
其中,
为与文档
对应的文档主题分布且第k∈{1,2,...,K}维θe(k)表示第k个主题
在文档
中所占的比重 。
4.根据权利要求3所述的一种基于词嵌入和生成式神经网络的主题挖掘方法, 其特征
在于, 所述步骤S3中使用的高斯解码器以从编码器网络得到的文档 主题分布
加噪后的
为输入, 通过非线性变换将其 转换为与之对应的V维文档词分布
其具体实现步骤如下:
S301、 对编码器的输出
进行加噪, 即
其中,
采样自先验狄利克雷分布; β 为比例系数, 当β =0 时, 说明高斯解码器的输入
就是编码 器的输出, 当β = 1时, 说明高斯解码 器的输入完全采样自先验分布, 而不考虑编码
器的输出 结果;
S302、 利用多维高斯分布对每 个主题进行建模
解码器网络D用一个词向量维度的高斯分布
来建模第k个主题, 其中,
和Σk
是可训练参数, 分别代表该高斯分布的均值和协方差矩阵; 对于词表 中的第v∈{1,2,...,
V}个词, 根据高斯分布的概 率密度计算公式, 其在第k个主题中的概 率φk,v可由下式得 出:
其中,
为词表中第v个词的词向量, V是词表大小, |Σk|=detΣk是协方差矩阵Σk的行
列式, De是词向量的维度,
为通过概率密度计算出的概率值,
为第k个主题归
一化后的词分布
S303、 计算主题词分布
根据加噪后的主题分布
和计算得到的主题词分布, 文档词分布
可由下式计算:
其中, θ(k)为第k个主题所占的比重 。
5.根据权利要求4所述的一种基于词嵌入和生成式神经网络的主题挖掘方法, 其特征
在于, 步骤S4中所述自编 码器网络的重构损失和狄利克雷先验分布对齐的正则化损失具体
如下:
重构损失:
正则化损 失计算主要分为两步: 一是从狄利克雷分布中采样文档主题分布; 二是计算权 利 要 求 书 2/4 页
3
CN 115099188 A
3
专利 一种基于词嵌入和生成式神经网络的主题挖掘方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:08:31上传分享