专利 一种基于深度学习的中文文本语义压缩方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210608472.X (22)申请日 2022.05.31 (71)申请人浙江工业大学地址 310014 浙江省杭州市拱墅区潮王路 18号 (72)发明人钱丽萍　钱江　王寅生　吴湾湾　王倩　 (74)专利代理机构浙江千克知识产权代理有限公司 33246 专利代理师赵芳 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于深度学习的中文文本语义压缩方法 (57)摘要一种基于深度学习的中文文本语义压缩方法，对于输入的一篇中文文本，经过系统模型，能够最大程度上压缩其语义。本发明结合了双向长短期记忆网络(Bi ‑LSTM)以及自注意力机制 (Self‑Attention)优势，极大程度上改善了无线通信网络中发送端的文本语义压缩效果，有效地节省无线通信传输所需要的带宽资源，从而使得接收端信息处理效率进一步提升。权利要求书2页说明书5页附图1页 CN 114925701 A 2022.08.19 CN 114925701 A 1.一种基于深度学习的中文文本语义压缩方法，其特征在于，所述方法包括以下步骤： 1)首先对输入文本进行预处理，操作如下：将所要传输的句子s标准化为词数个数为n，参数n可以自行设定；然后利用Jieba中文分词工具进行去除停用词以及分词处理，得到w1, w2,w3,…,wn，接着运用Word2Vec中文预训练模型输出每一个单词w1,w2,w3,…,wn所对应的词向量，用c1,c2,c3,…,cn表示，词向量组c1,c2,c3,…,cn记作C； 2)将词向量组c1,c2,c3,…,cn输入至编码器，编码器共有相同两层，在编码器第一层中，词向量组首先进入自注意力机制，计算过程如下： qi＝Wq×C， i∈[1,n] (1) ki＝Wk×C (2) vi＝Wv×C (3) 其中， Wq,Wk,Wv为维数为25 6的可训练参数方阵； 3)对于每一个qi(i∈[1,n])，都令其与每一个ki(i∈[1,n])进行向量点乘运算，对于q1 分别得到α1,1, α1,2, α1,3,…, α1,n，将α1,1, α1,2, α1,3,…, α1,n进行Softmax归一化操作，得到其中：再将分别与各自对应的v1,v2,v3,…,vn相乘，将所得结果累加得到向量 a1；将上述操作进行n次，得到向量a1,a2,a3,…,an，公式如下：至此，完成第一次自注意力机制操作；将自注意力机制操作生成的向量称为注意力向量，如a1,a2,a3,…,an； 4)将注意力向量a1,a2,a3,…,an分别输入双向长短期记忆神经网络Bi ‑LSTM层，分别得到向量b1,b2,b3,…,bn，维数与a1,a2,a3,…,an相同； 5)向量b1,b2,b3,…,bn进入编码器第二层，首先重复进行第一层中的自注意力操作，输出的注意力向量再经过双向长短期记忆神经网络输出向量组e1,e2,e3,…,en，将e1,e2, e3,…,en分别乘以维数为25 6的可训练参数方阵分别得到向量 6)进入解码器部分，解码器共有相同两层，第一层中，首先将由一个维数为256的初始词向量<CLS>输入至解码器开始进行解码操作； 7)由第一个目标单词词向量作为解码器第二次解码的输入，同理将第一个目标单词的词向量乘以维数为25 6的方阵得到对应向量 nq,nk,nv保留以进行后续操作； 8)第二个目标单词作为解码器第三次解码的输入，后续重复上述解码操作步骤，直至输出所有目标单词，从而得到预测语义 9)通过最小化负对数损失函数来训练模型参数，模型参数包括矩阵元素与神经网络权重。 2.如权利要求1所述的一种基于深度学习的中文文本语义压缩方法，其特征在于，所述步骤6)中，初始词向量<CLS>将进行自注意力机制操作，所得注意力向量记为m；下一步进入权　利　要　求　书 1/2 页 2 CN 114925701 A 2Decoder‑Encoder Attention层进行注意力机制操作，过程如下：将向量m乘以维数为256的方阵得到向量qm，将向量qm分别与向量进行点乘操作，得到公式如下：其中，为向量ei与方阵Wek相乘所得向量， qm为向量m与方阵相乘所得向量；对进行Softmax归一化操作得到再将分别与各自对应的相乘，所得结果相加得到注意力向量r1，向量r1再经过前馈神经网络FFNN层得到向量向量进入解码器第二层，第二层中重复第一层的操作，最后经过Softmax层输出概率向量，概率值最大的维度对应为第一个目标单词。 3.如权利要求1或2所述的一种基于深度学习的中文文本语义压缩方法，其特征在于，所述步骤 7)中，第二次解码操作说明如下：将向量nq,nk,nv与初始词向量进行自注意力机制操作，得到第一个目标单词词向量对应的注意力向量h，将 h乘以维数为256的可训练参数方阵得到向量qh，将向量qh分别与向量进行点乘操作，得到γi(i∈[1,n])，公式如下：其中，为向量ei与方阵Wek相乘所得向量， qh为注意力向量h与方阵相乘所得向量；再对γi(i∈[1 ,n])进行Softmax归一化操作得到将分别与各自对应的相乘，所得结果相加得到注意力向量r2，向量r2在经过前馈神经网络FFNN层得到向量向量进入解码器第二层，第二层中重复第一层的操作，最后经过Softmax层输出概率向量，概率最大的对应为第二个目标单词。 4.如权利要求1或2所述的一种基于深度学习的中文文本语义压缩方法，其特征在于，所述步骤9)中，损失函数定义为：其中，为在t时刻解码器生成标准语义句中词语的概率， T为解码器生成语义句子所需要的总时间。权　利　要　求　书 2/2 页 3 CN 114925701 A 3

专利 一种基于深度学习的中文文本语义压缩方法

专利一种基于深度学习的中文文本语义压缩方法