(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210598799.3
(22)申请日 2022.05.30
(71)申请人 哈尔滨工业大 学
地址 150001 黑龙江省哈尔滨市南岗区西
大直街92号
(72)发明人 赵铁军 王晨懿 徐冰 杨沐昀
朱聪慧 曹海龙
(74)专利代理 机构 哈尔滨奥博专利代理事务所
(普通合伙) 23220
专利代理师 桑林艳
(51)Int.Cl.
G06F 40/232(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
(54)发明名称
一种基于预训练的字音字形知识增强的中
文拼写纠正方法
(57)摘要
本发明提出一种基于预训练的字音字形知
识增强的中文拼写纠正方法。 属于自然语言处理
技术领域。 本发 明的目的是为了改进中文拼写纠
正技术的准确性, 更好地解决字音或字形混淆导
致的拼写错误, 节省人工复核的时间。 本发明首
先从数据库中取出待纠错文本对应的拼音和仓
颉码序列, 然后将文本和拼音、 仓颉码序列一同
输入模型中。 模 型会整合文本的上下文语义信息
和字音字形知识, 给出拼写纠正建议。 本发明还
采用了特定的mask策略和预训练任务, 在大规模
中文语料上预训练得到更适用于中文拼写纠正
技术的预训练语 言模型。 本发明可用于各种文本
纠错场景, 提高了校验 文章的效率。
权利要求书2页 说明书6页 附图4页
CN 114970503 A
2022.08.30
CN 114970503 A
1.一种基于预训练的字音字形知识增强的中文拼写纠正方法, 其特征在于, 所述方法
具体包括:
步骤一、 对于输入的文本, 从数据库中取出每个汉字的拼音和仓颉码作为字音和字形
知识;
步骤二、 将汉字的拼音和仓颉码映射到可训练的嵌入, 然后将拼音序列和仓颉码序列
嵌入进行编码, 获得汉字的字音和字形 特征向量;
步骤三、 使用特定预训练任务在海量中文文本上预训练得到的语言模型作为编码器,
将文本的字音字形 特征和文本一 起输入模型中, 获得每 个位置的字的上 下文表示;
步骤四、 使用词表大小的分类器, 选择得分最高的分类结果对应的字符作为该位置的
纠正结果。
2.根据权利要求1所述的方法, 其特征在于, 采用GRU网络分别对汉字的拼音序列和仓
颉码序列进行编码, 具体过程包括以下步骤:
步骤2.1、 对于 输入的每 个字符c, 获得其 拼音序列和仓颉码序列;
步骤2.2、 将字符的拼音序列中的声母、 韵母、 声调, 分别映射到可训练的嵌入, 将字符
的仓颉码序列中的每 个字码也映射到可训练的嵌入, 嵌入的维度设置为768;
步骤2.3、 使用两个GRU网络, 分别作为字音编码器和字形编码器, 将每个汉字的拼音序
列和仓颉码序列分别作为二者的输入, 将GRU网络在序列最后时刻的隐藏层作为该字符的
字音字形 特征向量。
3.根据权利要求2所述的方法, 其特征在于, 将步骤2中获得的字音和字形特征向量作
为BERT模 型的输入之一, 一同输入BERT模 型中, 从而获得该位置的上下文表 示; 所述BERT模
型, 其输入包含五个部分: Token Embeddings, Position Embeddings, Segment
Embeddings, Phonetic Embeddings和Graphic Embeddings; Phonetic Embeddings和
Graphic Embeddings分别对应步骤2中经过GRU编码得到的字音特征向量和字形特征向量,
在输入端将这五个部分的嵌入相加并经 过LayerN orm后, 一同输入BERT模型中。
4.根据权利要求3所述的方法, 其特征在于, 在步骤4中使用词表大小的分类器, 将其权
重矩阵和BERT模型的To ken Embeddings进行权值共享;
对每个位置进行一个词表大小的分类, 具体地, 取BERT模型最后一层隐藏层输出的上
下文表示hi, 用于进行分类,
P(yi=j|X)=softmax(Whi)[j],
其中W是分类器的可训练参数, 将BERT的Token Embeddings层和W进行权值共享, 二者
在语义上是相似的, 权重矩阵的每 一行和词表中的每个字相对应, 且大小均为R|V|*H, 其中|V
|表示词表大小, H表示隐藏层维度大小。
5.根据权利要求4所述的方法, 其特征在于, 所述特定预训练任务为适用于CSC任务的
基于混淆集的预训练任务, 随机替换语料中15%的to ken, 其中:
(1)50%的情况下替换为发音相似的字符, 25 %的情况下替换为字形相似的字符, 考虑
到与字音相关的错误和与字形相关的错误出现的频率不同, 在替换时这两种类型的相似字
符被分配不同的比例, 相似字符从公开的混淆集中获得;
(2)10%的情况下替换为词 表中的任一中文字符, 混淆集的大小是有限的, 但是拼写错
误是由于任意字符错 误造成的, 为了提高泛化能力, 用词汇 表中的随机 字符替换选 定标记;权 利 要 求 书 1/2 页
2
CN 114970503 A
2(3)15%的情况 下保持不变。
6.根据权利要求5所述的方法, 其特征在于, 步骤3 中所使用的预训练模型, 是采用了更
适合中文拼写纠正任务的三个预训练任务进行预训练得到, 即字符预测任务、 拼音预测任
务和仓颉码预测任务; 取BERT模型最后一层隐藏层输出的上 下文表示hi, 用于进行 预测。
7.根据权利 要求6所述的方法, 其特征在于, 字符预测任务和MLM任务类似, 预测mask位
置的正确字符, 选择得分最高的字符作为预测结果, 将BERT的Token Embeddings层和分类
器权值共享。
8.根据权利要求7所述的方法, 其特征在于, 拼音预测任务预测mask位置字符的正确拼
音; 分为声母、 韵母、 声调三个预测子任务, 选择得分最高的声母、 韵母、 声调 作为预测结果,
将声母、 韵母、 声调的特征嵌入和对应的分类器进行权值共享, 来计算特征嵌入和hi的相似
性, 相关的嵌入 会被拉近, 不相关的嵌入 会被拉远。
9.根据权利要求8所述的方法, 其特征在于, 仓颉码预测任务预测mask位置字符的正确
仓颉码序列组成, 视为多 标签分类任务, 选择得分经过sigmoid后大于一定阈值的字码作为
预测结果; 将仓颉码的特征嵌入和分类器进行权值共享, 来计算仓颉码嵌入和hi的相似性,
相关的嵌入 会被拉近, 不相关的嵌入 会被拉远。
10.根据权利要求9所述的方法, 其特征在于, 在预训练过程中, 收集104万条中文wiki
数据和25 0万篇新闻语料, 从中随机 选择7,000,000条句子作为预训练的数据。权 利 要 求 书 2/2 页
3
CN 114970503 A
3
专利 一种基于预训练的字音字形知识增强的中文拼写纠正方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:08:44上传分享