(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210526372.2
(22)申请日 2022.05.16
(65)同一申请的已公布的文献号
申请公布号 CN 114626363 A
(43)申请公布日 2022.06.14
(73)专利权人 天津大学
地址 300072 天津市南 开区卫津路9 2号
(72)发明人 张梅山 李建玲 孙越恒
(74)专利代理 机构 北京市广友专利事务所有限
责任公司 1 1237
专利代理师 张仲波
(51)Int.Cl.
G06F 40/211(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)G06F 40/216(2020.01)
G06F 40/14(2020.01)
G06F 40/189(2020.01)
审查员 刘华楠
(54)发明名称
一种基于翻译的跨语言短语结构分析方法
及装置
(57)摘要
本发明公开了一种基于翻译的跨语言短语
结构分析方法及装置, 涉及自然语 言处理技术领
域。 包括: 获取待分析的句子; 将待分析的句子输
入到构建好的跨语言短语结构分析模型; 其中,
跨语言短语结构分析模型包括短语结构树库构
建模块以及短语结构解析器模块; 根据待分析的
句子、 短语结构树库 构建模块以及短语结构解析
器模块, 得到待分析的句子的短语结构分析结
果。 本发明解决了当前很多语言缺少短语结构树
库语料或者完全没有短语结构标注数据的问题。
提出的基于翻译的跨语言短语结构分析方法可
以扩展生成目标语 言的短语结构树库, 然后用树
库训练得到的短语结构解析模型其质量更高。
权利要求书4页 说明书13页 附图4页
CN 114626363 B
2022.09.13
CN 114626363 B
1.一种基于翻译的跨语言 短语结构分析 方法, 其特 征在于, 所述方法包括:
S1、 获取待分析的句子;
S2、 将所述待分析的句子输入到构建好的跨语言短语结构分析模型; 其中, 所述跨语言
短语结构分析模型包括短语结构树库构建模块以及短语结构解析器模块;
S3、 根据所述待分析的句子、 短语结构树库构建模块以及短语结构解析器模块, 得到待
分析的句子的短语结构分析 结果;
所述S2中的跨语言 短语结构分析模型的构建过程包括:
S21、 获取源语言 短语结构树库;
S22、 将所述源语言短语结构树库输入到所述短语结构树库构建模块, 得到目标语言短
语结构树库;
S23、 根据 所述目标语言短语结构树库以及预训练的自注意力机制解析器, 构建所述短
语结构解析器模块;
所述短语结构树库构建模块包括翻译模块、 对齐模型以及调整模块;
所述S22中的将所述源语言短语结构树库输入到所述短语结构树库构建模块, 得到目
标语言短语结构树库包括:
S221、 获取源语言短语结构树库中的源语言句子, 将所述源语言句子输入到所述翻译
模块, 得到目标语言句子;
S222、 将所述源语言句子以及目标语言句子输入到所述对齐模型, 输出句子对中词语
的对齐概 率; 其中, 所述句子对 包括源语言句子以及目标语言句子;
S223、 将所述句子对中词语的对齐概率输入到所述调整模块, 得到目标语言短语结构
树库;
所述S221中的将所述源语言句子 输入到所述翻译模块, 得到目标语言句子包括:
采用翻译工具包将所述源语言句子翻译为目标语言句子;
对所述目标语言句子进行检查; 其中, 所述检查的方法为比较源语言句子和目标语言
句子的长度;
判断检查后的目标语言句子是否需要分词, 若是, 则采用分词工具对所述检查后的目
标语言句子进行分词, 得到最终的目标语言句子;
所述S222中的对齐模型为无监 督的fast_al ign对齐模型;
所述对齐模型的训练数据集的获取 方法包括:
获取对齐语句, 将所述对齐语句的格式转换为fast_align对齐模型的格式; 对格式转
换后的对齐语句的指标进 行检查, 得到对齐模型的训练数据集; 其中, 所述指标包括源语言
句子或者目标语言句子的缺失情况以及源语言句子或者目标语言句子是否需要进行分词
操作;
所述调整模块包括 替换单元、 删除单 元以及树结构扭转单 元;
所述S223中的将所述句子对中词语的对齐概率输入到所述调整模块, 得到目标语言短
语结构树库包括:
将所述句子对中词语的对齐概率输入到所述替换单元, 所述替换单元选择所述句子对
中词语的对齐概率为前预设个数 的词, 并用句 子对中的目标词替换源词, 得到替换后的句
子对;权 利 要 求 书 1/4 页
2
CN 114626363 B
2所述用句子对中的目标词替换源词包括:
若所述源词和目标词是一对一的关系, 则所述目标词继承 源词所有短语结构;
若所述源词和目标词是一对多的关系, 则所述目标词构建一个短语结构, 短语结构的
父节点继承 源词的所有短语结构;
若所述源词和目标词是多对一的关系, 则所述目标词继承源词父节点的所有短语结
构;
将所述替换后的句子对输入到所述删除单元, 所述删除单元将替换后的句子对中无法
对齐的源词删除, 得到删除后的句子对;
将所述删除后的句子对输入到所述 树结构扭转单 元, 得到目标语言 短语结构树库;
所述短语结构解析器模块包括预训练语言模型、 编码器模块以及解码器模块;
所述S23中的根据所述目标语言短语结构树库以及预训练的自注意力机制解析器, 构
建所述短语结构解析器模块包括:
S231、 根据所述目标语言短语结构树库、 预训练的自注意力机制解析器以及预训练语
言模型, 得到 输入向量;
S232、 将所述输入向量输入到所述编码器模块, 得到编码的语义向量;
S233、 将所述编码的语义向量输入到所述 解码器模块, 得到解码结果;
所述S231中的根据 所述目标语言短语结构树库、 预训练的自注意力机制解析器以及预
训练语言模型, 得到 输入向量包括:
将目标语言短语结构树库中的句子
中的每个词
, 通过预训练的
自注意力机制解析器映射 为向量
;
通过预训练的自注意力机制解析器的线性层将向量
转换为内容向量
;
将所述内容向量
与给定的可 学习的位置向量
进行拼接, 得到 输入向量;
所述S232中的将所述输入向量输入到所述编码器模块, 得到编码的语义向量包括:
将所述输入向量的内容向量
分别输入到编码器模 块的两层多头自注意力层中的每层
多头自注意力层, 得到内容向量输出;
将所述输入向量的位置向量
分别输入到编码器模块的两层多头自注意力层中的每层
多头自注意力层, 得到位置向量输出;
将所述内容向量输出以及位置向量输出进行拼接, 并输入到编码器模块的残差网络
中, 得到编码的语义向量。
2.一种基于翻译的跨语言 短语结构分析装置, 其特 征在于, 所述装置包括:
获取模块, 用于获取待分析的句子;
输入模块, 用于将所述待分析的句子输入到构建好的跨语言短语结构分析模型; 其中,
所述跨语言短语结构分析模型包括短语结构树库构建模块以及短语结构解析器模块;
输出模块, 用于根据所述待分析的句子、 短语结构树库构建模块以及短语结构解析器
模块, 得到待分析的句子的短语结构分析 结果;
所述跨语言短语结构分析模型的构建过程包括:
S21、 获取源语言 短语结构树库;
S22、 将所述源语言短语结构树库输入到所述短语结构树库构建模块, 得到目标语言短权 利 要 求 书 2/4 页
3
CN 114626363 B
3
专利 一种基于翻译的跨语言短语结构分析方法及装置
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:08:26上传分享