专利 一种基于预训练的字音字形知识增强的中文拼写纠正方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210598799.3 (22)申请日 2022.05.30 (71)申请人哈尔滨工业大学地址 150001 黑龙江省哈尔滨市南岗区西大直街92号 (72)发明人赵铁军　王晨懿　徐冰　杨沐昀　朱聪慧　曹海龙　 (74)专利代理机构哈尔滨奥博专利代理事务所 (普通合伙) 23220 专利代理师桑林艳 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) (54)发明名称一种基于预训练的字音字形知识增强的中文拼写纠正方法 (57)摘要本发明提出一种基于预训练的字音字形知识增强的中文拼写纠正方法。属于自然语言处理技术领域。本发明的目的是为了改进中文拼写纠正技术的准确性，更好地解决字音或字形混淆导致的拼写错误，节省人工复核的时间。本发明首先从数据库中取出待纠错文本对应的拼音和仓颉码序列，然后将文本和拼音、仓颉码序列一同输入模型中。模型会整合文本的上下文语义信息和字音字形知识，给出拼写纠正建议。本发明还采用了特定的mask策略和预训练任务，在大规模中文语料上预训练得到更适用于中文拼写纠正技术的预训练语言模型。本发明可用于各种文本纠错场景，提高了校验文章的效率。权利要求书2页说明书6页附图4页 CN 114970503 A 2022.08.30 CN 114970503 A 1.一种基于预训练的字音字形知识增强的中文拼写纠正方法，其特征在于，所述方法具体包括：步骤一、对于输入的文本，从数据库中取出每个汉字的拼音和仓颉码作为字音和字形知识；步骤二、将汉字的拼音和仓颉码映射到可训练的嵌入，然后将拼音序列和仓颉码序列嵌入进行编码，获得汉字的字音和字形特征向量；步骤三、使用特定预训练任务在海量中文文本上预训练得到的语言模型作为编码器，将文本的字音字形特征和文本一起输入模型中，获得每个位置的字的上下文表示；步骤四、使用词表大小的分类器，选择得分最高的分类结果对应的字符作为该位置的纠正结果。 2.根据权利要求1所述的方法，其特征在于，采用GRU网络分别对汉字的拼音序列和仓颉码序列进行编码，具体过程包括以下步骤：步骤2.1、对于输入的每个字符c，获得其拼音序列和仓颉码序列；步骤2.2、将字符的拼音序列中的声母、韵母、声调，分别映射到可训练的嵌入，将字符的仓颉码序列中的每个字码也映射到可训练的嵌入，嵌入的维度设置为768；步骤2.3、使用两个GRU网络，分别作为字音编码器和字形编码器，将每个汉字的拼音序列和仓颉码序列分别作为二者的输入，将GRU网络在序列最后时刻的隐藏层作为该字符的字音字形特征向量。 3.根据权利要求2所述的方法，其特征在于，将步骤2中获得的字音和字形特征向量作为BERT模型的输入之一，一同输入BERT模型中，从而获得该位置的上下文表示；所述BERT模型，其输入包含五个部分： Token Embeddings， Position Embeddings， Segment Embeddings， Phonetic Embeddings和Graphic Embeddings； Phonetic Embeddings和 Graphic Embeddings分别对应步骤2中经过GRU编码得到的字音特征向量和字形特征向量，在输入端将这五个部分的嵌入相加并经过LayerN orm后，一同输入BERT模型中。 4.根据权利要求3所述的方法，其特征在于，在步骤4中使用词表大小的分类器，将其权重矩阵和BERT模型的To ken Embeddings进行权值共享；对每个位置进行一个词表大小的分类，具体地，取BERT模型最后一层隐藏层输出的上下文表示hi，用于进行分类， P(yi＝j|X)＝softmax(Whi)[j], 其中W是分类器的可训练参数，将BERT的Token Embeddings层和W进行权值共享，二者在语义上是相似的，权重矩阵的每一行和词表中的每个字相对应，且大小均为R|V|*H，其中|V |表示词表大小， H表示隐藏层维度大小。 5.根据权利要求4所述的方法，其特征在于，所述特定预训练任务为适用于CSC任务的基于混淆集的预训练任务，随机替换语料中15％的to ken，其中： (1)50％的情况下替换为发音相似的字符， 25 ％的情况下替换为字形相似的字符，考虑到与字音相关的错误和与字形相关的错误出现的频率不同，在替换时这两种类型的相似字符被分配不同的比例，相似字符从公开的混淆集中获得； (2)10％的情况下替换为词表中的任一中文字符，混淆集的大小是有限的，但是拼写错误是由于任意字符错误造成的，为了提高泛化能力，用词汇表中的随机字符替换选定标记；权　利　要　求　书 1/2 页 2 CN 114970503 A 2(3)15％的情况下保持不变。 6.根据权利要求5所述的方法，其特征在于，步骤3 中所使用的预训练模型，是采用了更适合中文拼写纠正任务的三个预训练任务进行预训练得到，即字符预测任务、拼音预测任务和仓颉码预测任务；取BERT模型最后一层隐藏层输出的上下文表示hi，用于进行预测。 7.根据权利要求6所述的方法，其特征在于，字符预测任务和MLM任务类似，预测mask位置的正确字符，选择得分最高的字符作为预测结果，将BERT的Token Embeddings层和分类器权值共享。 8.根据权利要求7所述的方法，其特征在于，拼音预测任务预测mask位置字符的正确拼音；分为声母、韵母、声调三个预测子任务，选择得分最高的声母、韵母、声调作为预测结果，将声母、韵母、声调的特征嵌入和对应的分类器进行权值共享，来计算特征嵌入和hi的相似性，相关的嵌入会被拉近，不相关的嵌入会被拉远。 9.根据权利要求8所述的方法，其特征在于，仓颉码预测任务预测mask位置字符的正确仓颉码序列组成，视为多标签分类任务，选择得分经过sigmoid后大于一定阈值的字码作为预测结果；将仓颉码的特征嵌入和分类器进行权值共享，来计算仓颉码嵌入和hi的相似性，相关的嵌入会被拉近，不相关的嵌入会被拉远。 10.根据权利要求9所述的方法，其特征在于，在预训练过程中，收集104万条中文wiki 数据和25 0万篇新闻语料，从中随机选择7,000,000条句子作为预训练的数据。权　利　要　求　书 2/2 页 3 CN 114970503 A 3

专利 一种基于预训练的字音字形知识增强的中文拼写纠正方法

专利一种基于预训练的字音字形知识增强的中文拼写纠正方法