(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210608472.X
(22)申请日 2022.05.31
(71)申请人 浙江工业大 学
地址 310014 浙江省杭州市拱 墅区潮王路
18号
(72)发明人 钱丽萍 钱江 王寅生 吴湾湾
王倩
(74)专利代理 机构 浙江千克知识产权代理有限
公司 33246
专利代理师 赵芳
(51)Int.Cl.
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于深度学习的中文文本语义压缩方
法
(57)摘要
一种基于深度学习的中文文本语义压缩方
法, 对于输入的一篇中文文本, 经过系统模型, 能
够最大程度上压缩其语义。 本发 明结合了双向长
短期记忆网络(Bi ‑LSTM)以及自注意力机制
(Self‑Attention)优势, 极大程度上改善了 无线
通信网络中发送端的文本语义压缩效果, 有效地
节省无线通信传输所需要的带宽资源, 从而使 得
接收端信息处 理效率进一 步提升。
权利要求书2页 说明书5页 附图1页
CN 114925701 A
2022.08.19
CN 114925701 A
1.一种基于深度学习的中文 文本语义压缩方法, 其特 征在于, 所述方法包括以下步骤:
1)首先对输入文本进行预处理, 操作如 下: 将所要传输的句子s标准化为词数个数为n,
参数n可以自行设定; 然后利用Jieba中文分词工具进行去除停用词以及分词处理, 得到w1,
w2,w3,…,wn, 接着运用Word2Vec中文预训练模型输出每一个单词w1,w2,w3,…,wn所对应的
词向量, 用c1,c2,c3,…,cn表示, 词向量组c1,c2,c3,…,cn记作C;
2)将词向量组c1,c2,c3,…,cn输入至编码器, 编码器共有相同两层, 在编码器第一层中,
词向量组首 先进入自注意力机制, 计算过程如下:
qi=Wq×C, i∈[1,n] (1)
ki=Wk×C (2)
vi=Wv×C (3)
其中, Wq,Wk,Wv为维数为25 6的可训练参数 方阵;
3)对于每一个qi(i∈[1,n]), 都令其与每一个ki(i∈[1,n])进行向量点乘运算, 对于q1
分别得到α1,1, α1,2, α1,3,…, α1,n, 将α1,1, α1,2, α1,3,…, α1,n进行Softmax归一化操作, 得到
其中:
再将
分别与各自对应的v1,v2,v3,…,vn相乘, 将所得结果累加得到向量
a1; 将上述操作进行n次, 得到向量a1,a2,a3,…,an, 公式如下:
至此, 完成第一次自注意力机制操作; 将自注意力机制操作生成的向量称为注意力向
量, 如a1,a2,a3,…,an;
4)将注意力向量a1,a2,a3,…,an分别输入双向长短期记忆神经网络Bi ‑LSTM层, 分别得
到向量b1,b2,b3,…,bn, 维数与a1,a2,a3,…,an相同;
5)向量b1,b2,b3,…,bn进入编码器第二层, 首先重复进行第一层中的自注意力操作, 输
出的注意力向量再经过双向长短期记忆神经网络输出向量组e1,e2,e3,…,en, 将e1,e2,
e3,…,en分别乘以维数为25 6的可训练参数 方阵
分别得到向量
6)进入解码器部分, 解码器共有相同两层, 第一层中, 首先将由一个维数为256的初始
词向量<CLS>输入至解码器开始进行解码 操作;
7)由第一个目标单词词向量作为解码器第二 次解码的输入, 同理将第 一个目标单词的
词向量乘以维数为25 6的方阵
得到对应向量 nq,nk,nv保留以进行后续操作;
8)第二个目标单词作为解码器第三次解码的输入, 后续重复上述解码操作步骤, 直至
输出所有目标 单词, 从而得到预测语义
9)通过最小化负对数损失函数来训练模型参数, 模型参数包括矩阵元素与神经网络权
重。
2.如权利要求1所述的一种基于深度 学习的中文文本语义压缩方法, 其特征在于, 所述
步骤6)中, 初始词向量<CLS>将进行自注 意力机制操作, 所得注 意力向量记 为m; 下一步进入权 利 要 求 书 1/2 页
2
CN 114925701 A
2Decoder‑Encoder Attention层进行注意力机制操作, 过程如下: 将向量m乘以维数为256的
方阵
得到向量qm, 将向量qm分别与向量
进行点乘操作, 得到
公式如下:
其中,
为向量ei与方阵Wek相乘所得向量, qm为向量m与方阵
相乘所得向量;
对
进行Softmax归一化操作得到
再将
分别与各自对应
的
相乘, 所得结果相 加得到注意力向量r1, 向量r1再经过前馈神经网络FFNN层得
到向量
向量
进入解码器第二层, 第二层中重复第一层的操作, 最后经过Softmax层输
出概率向量, 概 率值最大的维度对应为第一个目标 单词。
3.如权利要求1或2所述的一种基于深度学习的中文文本语义压缩方法, 其特征在于,
所述步骤 7)中, 第二次解码操作说明如下: 将向量nq,nk,nv与初始词向量进 行自注意力机制
操作, 得到第一个目标单词词向量对应的注意力向量h, 将 h乘以维数为256的可训练参数方
阵
得到向量qh, 将向量qh分别与向量
进行点乘操作, 得到γi(i∈[1,n]),
公式如下:
其中,
为向量ei与方阵Wek相乘所得向量, qh为注意力向量h与方阵
相乘所得向量;
再对γi(i∈[1 ,n])进行Softmax归一化操作得到
将
分别与各自对应的
相乘, 所得结果相加得到注意力向量r2, 向量r2在经过前馈神经网络FFNN层得到
向量
向量
进入解码器第二层, 第二层中重复第一层的操作, 最后经过Softmax层输出
概率向量, 概 率最大的对应为第二个目标 单词。
4.如权利要求1或2所述的一种基于深度学习的中文文本语义压缩方法, 其特征在于,
所述步骤9)中, 损失函数定义 为:
其中,
为在t时刻解码器生成标准语义句中词语
的概率, T为 解码器生成语义句
子所需要的总时间。权 利 要 求 书 2/2 页
3
CN 114925701 A
3
专利 一种基于深度学习的中文文本语义压缩方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:08:10上传分享