(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210614817.2
(22)申请日 2022.05.31
(71)申请人 浙江工业大 学
地址 310014 浙江省杭州市拱 墅区潮王路
18号
(72)发明人 钱丽萍 钱江 王寅生 张文杰
王倩
(74)专利代理 机构 浙江千克知识产权代理有限
公司 33246
专利代理师 赵芳
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/289(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种基于深度学习的中文 文本分类方法
(57)摘要
一种基于深度学习的中文文本 分类方法, 结
合Word2Vec词向量与LDA词向量作为词嵌入以增
强文本主题特征; 编码阶段将自注 意力机制以及
RNN网络结合可以实现对文本进行深度语义特征
提取的同时保留序列特征。 本发 明对于输入的一
篇中文文本, 运用系统模型, 能够有效提升文本
分类的准确率。 本发明融合了Word2Vec词向量与
LDA词向量作为词嵌入, 并结合了循环神经网络
(RNN)以及自注意力机制(Self ‑Attention)的特
征提取优势, 极大程度上改善了文本分类准确
率, 从而使得人们的信息处 理效率进一 步提升。
权利要求书2页 说明书4页 附图1页
CN 114912461 A
2022.08.16
CN 114912461 A
1.一种基于深度学习的中文 文本分类方法, 其特 征在于, 所述方法包括以下步骤:
1)首先对输入文本进行预处理操作, 过程如 下: 去除停用词、 特殊符号; 利用Jieba中文
分词工具进行分词处理, 得到w1,w2,w3,···,wn, 接着运用Word2V ec中文预训练模型输出
每一个单词所对应的词向量, 用c1,c2,c3,···,cn表示, 词向量组c1,c2,c3,···,cn记作
矩阵WC; 运用训练好的LDA模型输出文本的主题 ‑词矩阵记为WT, 最后将矩阵WC和矩阵WT按对
应向量进行拼接操作得到n ×dmodel维矩阵WE, dmodel为词向量维数, 满足
WE=[WC,WT] (1)
2)将矩阵WE输入至编码器, 首 先进行位置编码得到矩阵P, 计算过程说明如下:
3)将矩阵P与矩阵WE相加得到最终的n ×dmodel维词嵌入矩阵WI, 公式如下:
WI=WE+P (3)
4)将矩阵输入WI至自注意力机制, 生成n ×dmodel维矩阵M, 公式如下:
Q=WI×WQ (5)
K=WI×WK (6)
V=WI×WV (7)
其中, WQ、 WK、 WV为可训练dmodel维参数方阵, dk为可调超参数;
5)将矩阵M和WI进行残差与归一 化操作, 得到n ×dmodel维矩阵N1, 公式如下:
N1=LayerNorm(Μ+WI) (8)
6)将矩阵N1输入至前馈神经网络, 得到n ×dmodel维矩阵F, 公式如下:
F=max(0,N2W1+B1)W2+B2 (9)
其中W1、 W2为神经网络 权重矩阵, B1、 B2为神经网络偏置项;
7)下一步, 将矩阵WI输入至单隐藏层循环神经网络, 将每一个时刻隐藏层输出向量保
存, 记为矩阵R1,
dr为RNN网络维数;
8)将矩阵R1进行线性变换为 n×dmodel维矩阵
公式如下
其中, WL为dr×dmodel维可训练参数矩阵;
9)将矩阵
F、 以及N1进行残差和归一 化操作得到矩阵N2, 公式如下
10)取矩阵N2的首个向量输入至分类器, 首先经过前馈神经网络, 输出df维向量f, 公式
如下:
f=(vCLS·w1+b1)w2+b2 (12)权 利 要 求 书 1/2 页
2
CN 114912461 A
2其中, vCLS为N2的首个向量, w1、 w2为神经网络权重, b1、 b2为神经网络偏置项, df为神经网
络维数;
11)将向量f元 素进行Softmax运 算, 数值最大的维度便对应文本类别yp, 公式如下:
yp=softmax(f) (13)
12)通过交叉熵损失函数来训练模型参数, 模型参数包括矩阵元素与神经网络权重及
偏置项, 损失函数如下 所示:
其中, M为训练样本总数, yt为真实类别, yp为预测类别。权 利 要 求 书 2/2 页
3
CN 114912461 A
3
专利 一种基于深度学习的中文文本分类方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:08:10上传分享