专利 一种基于图引导的Transformer模型代码注释自动生成方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210776314.5 (22)申请日 2022.07.01 (71)申请人南京工业大学地址 211816 江苏省南京市浦口区浦珠南路30号南京工业大学 (72)发明人吴军华　周雯　 (51)Int.Cl. G06F 8/73(2018.01) G06F 40/169(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于图引导的Tran sformer模型代码注释自动生成方法 (57)摘要本发明提供了一种基于图引导的 Transformer模型代码注释自动生成方法，具体包括以下步骤：从Git Hub上下载开源的Java代码数据集DeepCom；对数据集中的源代码进行预处理，解析为抽象语法树，提取变量依赖关系构造数据流图，再将其转换为数据流引导的mask矩阵；用构造好的mask矩阵改进自注意力机制从而构建新的Transformer编码器；解码时，将句子的长度进行归一化，并在score函数中加入覆盖惩罚机制，以此来改进集束搜索算法；在Java数据集DeepCom上对已构建好的DFG ‑Trans模型进行训练，学习代码结构和语义信息；输入测试集中的代码序列，使用已训练好的模型进行测试，生成Java代码对应的注释。本发明不仅可以缓解代码长距离依赖的问题，而且可以很好地提取源代码的结构特征，从而提高注释生成的准确性。权利要求书2页说明书5页附图1页 CN 115048141 A 2022.09.13 CN 115048141 A 1.一种基于图引导的Transformer模型代码注释自动生成方法，其特征在于，包括如下步骤： S1、从GitHub上下载开源的Java代码数据集De epCom； S2、对数据集中的源代码进行预处理，解析为抽象语法树，提取变量依赖关系，构造数据流图再将其转换为数据流引导的mask矩阵； S3、用构造好的mask矩阵改进自注意力机制从而构建新的Transformer编码器； S4、解码时，将句子的长度进行归一化，并在score函数中加入覆盖惩罚机制，以此来改进原始的启发式算法— —集束搜索算法； S5、在Java数据集DeepCom上对已构建好的模型DFG ‑Trans进行训练，学习代码结构和语义信息； S6、输入测试集中的代码序列，使用已训练好的模型进行测试，生成Java代码对应的注释。 2.根据权利要求1所述的图引导的Transformer模型代码注释自动生成方法，其特征在于，步骤S2中所述的mask矩阵构造方法，具体包括： S201、数据流的结构化表示：将给定源代码解析为抽象语法树后，提取源代码中所有的变量节点并构造数据流图，将得到的数据流图用G＝(V， E)表示，其中V表示顶点的集合， E表示边的集合，将数据流图中的顶点记作 pos(i)表示第i个顶点在源代码序列中的位置信息，矩阵M记录源代码中的变量数据依赖关系， src_len表示源代码序列长度，矩阵M 定义为：其中<vi， vj>∈E表示vi与vj存在数据依赖关系，当vi与vj之间存在边或i等于j时，将 Mpos(i)pos(j)置为1，否则为负无穷，将M矩阵引入自注意力机制，当M等于1时，注意力得分不变，当M等于负无穷时，注意力得分将会被计算为0，这样就可以将序列中没有数据依赖关系的两个token的注意力得分覆盖掉，从而使后续构建的Transformer模型更能关注到代码中的数据流动关系，学习到变量的语义，帮助模型生成代码注释。 3.根据权利要求1所述的图引导的Transformer模型代码注释自动生成方法，其特征在于，步骤S3中所述的Transformer编码器，具体包括： S301、嵌入编码：给定源代码片段，经过嵌入层(embedder)编码后得到代码序列的向量表示， Transformer与循环神经网络不同，循环神经网络是一种顺序结构，可以很自然地捕获词序信息，为了捕获每个token在序列中的位置信息，对每一个token的位置采用正余弦函数进行编码； S302、自注意力机制： Transformer中的自注意力机制通过查询，键，值三个矩阵的计算实现，将代码序列的向量表示X＝[x1， x2...xsrc_len]通过三个线性层映射为Q， K， V三个矩阵， Q＝QWiQ， K＝KWiK， V＝VWiV WQ， WK， WV是可训练的权重矩阵，其中WQ， WK∈Rd_model×d_k， WV∈Rd_model×d_v， Q， K， V矩阵的初权　利　要　求　书 1/2 页 2 CN 115048141 A 2始值为X，将映射后得到的Q， K， V矩阵传入多头自注意力层，无数据流引导的编码器层采用的自注意力机制为缩放点积注意(Scaled Dot‑Product Attention)； S303、数据流引导的自注意力机制：为了引导模型关注代码中的数据依赖关系从而学习代码语义，定义了数据流邻接矩阵 M作为mask矩阵(见步骤2.1)，在数据流引导的编码器层采用了改进后的自注意力机制，自注意力输出计算C ’为：矩阵M记录了代码中的数据流信息，当第i个token与第j个token存在数据依赖关系时 Mij等于1，否则Mij为负无穷，经过softmax的计算后，没有数据依赖关系的两个token之间的注意力得分会被覆盖掉，计算出各头的注意力值后，模型将各头自注意力输出通过Concat 函数拼接起来得到最终的多头注意力矩阵； S304、前馈神经网络：多头自注意力层的输出经过残差连接和归一化后作为全连接前馈神经网络层的输入 H，该层中包括两个线性变换， FFN(H)＝ReLU(HW1+b1)W2+b2 其中W1， W2∈Rd_ff×d_model， b1∈Rd_ff， b2∈Rd_model均为模型可学习参数， ReLU函数用于激活输出。 4.根据权利要求1所述的图引导的Transformer模型代码注释自动生成方法，其特征在于，步骤S4中所述的改进后的集束搜索解码算法，具体包括：常规的集束搜索算法以对数似然作为得分函数，然而因为对数似然产生的概率为负数，负的对数概率随着句子长度的增加而累积，导致长句更容易产生更低(更负)的分数，因此通过对句子的长度进行归一化以改进原始启发式算法，除此以外，为了使输入序列中的每一个token被解码器均匀地注意到，即覆盖整个输入序列，在得分函数中添加了覆盖惩罚机制，改进后的得分函数score(x， y)定义为：将原始算法使用的对数似然除以Lα来进行长度的归一化，其中L是生成的候选注释的长度， α 是模型的超参数，它的值在0 到1之间， CP(x； y)为覆盖率惩罚函数，具体定义为： Pij表示第j个目标候选词与第i个输入词之间的注意力得分， Lx指输入序列的长度， β 是模型的超参数，它的值在0 到1之间。权　利　要　求　书 2/2 页 3 CN 115048141 A 3

专利 一种基于图引导的Transformer模型代码注释自动生成方法

专利一种基于图引导的Transformer模型代码注释自动生成方法