专利 一种基于动态多掩码和增强对抗的文本匹配方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210806846.9 (22)申请日 2022.07.08 (71)申请人重庆大学地址 400044 重庆市沙坪坝区沙正街174号 (72)发明人曾骏　钟林　陶泓锦　王子威　周魏　文俊浩　 (74)专利代理机构重庆晟轩知识产权代理事务所(普通合伙) 50238 专利代理师孔玲珑 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 40/247(2020.01) G06K 9/62(2022.01) G06F 16/35(2019.01) (54)发明名称一种基于动态多掩码和增强对抗的文本匹配方法 (57)摘要本发明涉及一种基于动态多掩码和增强对抗的文本匹配方法，包括如下步骤：选取公开数据集；采用现有模型BERT作为基线模型构建 DAINet模型， DAINet模型包括W个掩码增强对抗模块和一个集成输出模块I O，每个掩码增强对抗模块包括一个动态多掩码模组和一个增强对抗模组；所述IO通过对W个掩码增强对抗模块的输出进行加权求和得到DAINet模型的输出。使用本发明模型可以提高中文文本匹配任务的匹配精度和运行稳定性。权利要求书3页说明书12页附图1页 CN 115081446 A 2022.09.20 CN 115081446 A 1.一种基于动态多掩码和增强对抗的文本匹配方法，其特征在于：包括如下步骤： S100：选取公开数据集 I作为训练样本集； S200：采用现有模型作为基线模型构建DAINet模型， DAINet模型包括W个掩码增强对抗模块和一个集成输出模块IO，每个掩码增强对抗模块包括一个动态多掩码模组和一个增强对抗模组；所述IO通过对W个掩码增强对抗模块的输出进行加权求和得到DAINet模型的输出；每个掩码增强对抗模块均通过如下方法获得：将现有模型中的单一掩码策略改进为动态多掩码策略得到动态多掩码模组，记为DMM；在现有模型中增加多种方式对数据进行数据增强得到增强对抗模组，记为A A； S300：设置最大迭代次数，采用公开数据集I中的训练样本集数据对W个掩码增强对抗模块中的每个DMM进行训练，当达到最大迭代次数时，则认为W个DMM训练完成得到W个最优 DMM； S400：对于一个测试任务，获取与该测试任务相同类型的公开数据集II，分为测试集和训练集，公开数据集II中包括N组中文语句对和与N组语句对一一对应的一致性标签，每组中文语句对包括语句Sa和语句Sb，语句Sa和语句Sb形式如下：其中，表示语句Sa中的第r个中文字符，表示语句Sb中的第k个中文字符； S500：每个掩码增强对抗模块中的AA使用与其在同一掩码增强对抗模块中的最优DMM 的参数；将公开数据集II中的测试集中所有数据输入AA中，如果测试准确率达到设定的阈值，则使用最优DM M的参数的A A为训练好A A，并执行S700；否则执行S600； S600：使用训练集对W个掩码增强对抗模块中的A A进行训练，训练过程如下： S610：每个掩码增强对抗模块中的AA使用与其在同一掩码增强对抗模块中的最优DMM 的参数； S611：令batc h＝1； S612：从训练集中随机选择M个训练样本作为一个batc h； S620：选择训练样本集中第j个训练样本语句对(Saj,Sbj)以及相对应的一致性标签，作为第j个训练样本，使用A A对第j个训练样本进行处理得到微调损失函数L，具体步骤如下： S621：使用A A对训练样本语句对(Saj,Sbj)进行数据增强处理； S622：定义第j个训练样本的嵌入向量为表达式如下：其中， vw是第j个训练样本语句中中文字符w的嵌入向量， ( ‑∈gw/||gw||2)表示根据梯度计算得到的扰动值， gw表示采用交叉熵损失计算得到的扰动梯度， ∈表示调整扰动大小的超参数；其中，表示梯度计算操作， P(y/vw)表示条件概率，表示AA的整体参数； S623：通过对中文字符的特征拼接处理，计算第j个训练样本中的语义标签表达权　利　要　求　书 1/3 页 2 CN 115081446 A 2式如下：其中， FFN表示线性层函数，表示第j个训练样本中的语义标签， Vjbm25、 Vjtf‑id和 Vjelmo分别表示现有的三种不同的拼接特征技术， hcls表示AA对中文字符进行池化处理得到的池化输出； S624：利用计算(Saj， Sbj)经过DMM处理后的最终输出计算表达式如下：其中， S625：将j遍历其所有取值，重复S620 ‑S624； S626：计算A A的基线损失函数L ′base，计算表达式如下：其中， N表示样本总数， yj∈{0， 1}表示第j个训练样本的标签； S627：将batc h中的所有训练样本输入AA，计算AA的对抗损失函数Ladv( θ )，表达式如下：其中， m表示第m个batc h， M表示batc h总数， pj表示给定vw对应的条件概率值； S628：计算每个AA的微调损失函数L，计算表达式如下： L＝L′base+α Ladv( θ )； (8) 其中， α 表示损失项的权重； S629：当微调损失函数L收敛不再变化时，停止训练得到训练好的AA，并执行下一步；否则采用梯度下降法反向更新每个AA中的参数，令batc h＝batch+1，并返回S612； S700：将待预测中文文本分别输入到W个训练好AA中，得到W个输出， W个输出作为IO的输入， IO将W个输入进行加权求和得到待预测中文文本预测结果 logits，计算表达式如下：其中，是第W个训练好A A的输出， αw表示第W个训练好A A的输出所占的权重。 2.如权利要求1所述的一种基于动态多掩码和增强对抗的文本匹配方法，其特征在于：所述S200中集成输出模块 IO是由BERT， NEZHA， RoBERTa和macBERT模型集成得到。 3.如权利要求2所述的一种基于动态多掩码和增强对抗的文本匹配方法，其特征在于：所述S200中动态掩码模块中包括的多种掩码策略为原始单掩码方法MLM，全词掩码方法WWM 和N‑Gram掩码方法NGM 。 4.如权利要求3所述的一种基于动态多掩码和增强对抗的文本匹配方法，其特征在于：所述S621中AA对训练样本语句对(Saj， Sbj)进行数据增强处理包括对训练样本语句对(Saj， Sbj)依次进行标签转换、对偶训练和同义词替换。 5.如权利要求4所述的一种基于动态多掩码和增强对抗的文本匹配方法，其特征在于：所述S300中对W个掩码增强对抗模块中的每个DMM进行训练的具体步骤为： S310：从训练样本集中选择第i组语句对(Sai， Sbi)作为DMM模组的输入，第i组语句对权　利　要　求　书 2/3 页 3 CN 115081446 A 3

专利 一种基于动态多掩码和增强对抗的文本匹配方法

专利一种基于动态多掩码和增强对抗的文本匹配方法