专利 一种基于翻译的跨语言短语结构分析方法及装置

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210526372.2 (22)申请日 2022.05.16 (65)同一申请的已公布的文献号申请公布号 CN 114626363 A (43)申请公布日 2022.06.14 (73)专利权人天津大学地址 300072 天津市南开区卫津路9 2号 (72)发明人张梅山　李建玲　孙越恒　 (74)专利代理机构北京市广友专利事务所有限责任公司 1 1237 专利代理师张仲波 (51)Int.Cl. G06F 40/211(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01)G06F 40/216(2020.01) G06F 40/14(2020.01) G06F 40/189(2020.01) 审查员刘华楠 (54)发明名称一种基于翻译的跨语言短语结构分析方法及装置 (57)摘要本发明公开了一种基于翻译的跨语言短语结构分析方法及装置，涉及自然语言处理技术领域。包括：获取待分析的句子；将待分析的句子输入到构建好的跨语言短语结构分析模型；其中，跨语言短语结构分析模型包括短语结构树库构建模块以及短语结构解析器模块；根据待分析的句子、短语结构树库构建模块以及短语结构解析器模块，得到待分析的句子的短语结构分析结果。本发明解决了当前很多语言缺少短语结构树库语料或者完全没有短语结构标注数据的问题。提出的基于翻译的跨语言短语结构分析方法可以扩展生成目标语言的短语结构树库，然后用树库训练得到的短语结构解析模型其质量更高。权利要求书4页说明书13页附图4页 CN 114626363 B 2022.09.13 CN 114626363 B 1.一种基于翻译的跨语言短语结构分析方法，其特征在于，所述方法包括： S1、获取待分析的句子； S2、将所述待分析的句子输入到构建好的跨语言短语结构分析模型；其中，所述跨语言短语结构分析模型包括短语结构树库构建模块以及短语结构解析器模块； S3、根据所述待分析的句子、短语结构树库构建模块以及短语结构解析器模块，得到待分析的句子的短语结构分析结果；所述S2中的跨语言短语结构分析模型的构建过程包括： S21、获取源语言短语结构树库； S22、将所述源语言短语结构树库输入到所述短语结构树库构建模块，得到目标语言短语结构树库； S23、根据所述目标语言短语结构树库以及预训练的自注意力机制解析器，构建所述短语结构解析器模块；所述短语结构树库构建模块包括翻译模块、对齐模型以及调整模块；所述S22中的将所述源语言短语结构树库输入到所述短语结构树库构建模块，得到目标语言短语结构树库包括： S221、获取源语言短语结构树库中的源语言句子，将所述源语言句子输入到所述翻译模块，得到目标语言句子； S222、将所述源语言句子以及目标语言句子输入到所述对齐模型，输出句子对中词语的对齐概率；其中，所述句子对包括源语言句子以及目标语言句子； S223、将所述句子对中词语的对齐概率输入到所述调整模块，得到目标语言短语结构树库；所述S221中的将所述源语言句子输入到所述翻译模块，得到目标语言句子包括：采用翻译工具包将所述源语言句子翻译为目标语言句子；对所述目标语言句子进行检查；其中，所述检查的方法为比较源语言句子和目标语言句子的长度；判断检查后的目标语言句子是否需要分词，若是，则采用分词工具对所述检查后的目标语言句子进行分词，得到最终的目标语言句子；所述S222中的对齐模型为无监督的fast_al ign对齐模型；所述对齐模型的训练数据集的获取方法包括：获取对齐语句，将所述对齐语句的格式转换为fast_align对齐模型的格式；对格式转换后的对齐语句的指标进行检查，得到对齐模型的训练数据集；其中，所述指标包括源语言句子或者目标语言句子的缺失情况以及源语言句子或者目标语言句子是否需要进行分词操作；所述调整模块包括替换单元、删除单元以及树结构扭转单元；所述S223中的将所述句子对中词语的对齐概率输入到所述调整模块，得到目标语言短语结构树库包括：将所述句子对中词语的对齐概率输入到所述替换单元，所述替换单元选择所述句子对中词语的对齐概率为前预设个数的词，并用句子对中的目标词替换源词，得到替换后的句子对；权　利　要　求　书 1/4 页 2 CN 114626363 B 2所述用句子对中的目标词替换源词包括：若所述源词和目标词是一对一的关系，则所述目标词继承源词所有短语结构；若所述源词和目标词是一对多的关系，则所述目标词构建一个短语结构，短语结构的父节点继承源词的所有短语结构；若所述源词和目标词是多对一的关系，则所述目标词继承源词父节点的所有短语结构；将所述替换后的句子对输入到所述删除单元，所述删除单元将替换后的句子对中无法对齐的源词删除，得到删除后的句子对；将所述删除后的句子对输入到所述树结构扭转单元，得到目标语言短语结构树库；所述短语结构解析器模块包括预训练语言模型、编码器模块以及解码器模块；所述S23中的根据所述目标语言短语结构树库以及预训练的自注意力机制解析器，构建所述短语结构解析器模块包括： S231、根据所述目标语言短语结构树库、预训练的自注意力机制解析器以及预训练语言模型，得到输入向量； S232、将所述输入向量输入到所述编码器模块，得到编码的语义向量； S233、将所述编码的语义向量输入到所述解码器模块，得到解码结果；所述S231中的根据所述目标语言短语结构树库、预训练的自注意力机制解析器以及预训练语言模型，得到输入向量包括：将目标语言短语结构树库中的句子中的每个词，通过预训练的自注意力机制解析器映射为向量；通过预训练的自注意力机制解析器的线性层将向量转换为内容向量；将所述内容向量与给定的可学习的位置向量进行拼接，得到输入向量；所述S232中的将所述输入向量输入到所述编码器模块，得到编码的语义向量包括：将所述输入向量的内容向量分别输入到编码器模块的两层多头自注意力层中的每层多头自注意力层，得到内容向量输出；将所述输入向量的位置向量分别输入到编码器模块的两层多头自注意力层中的每层多头自注意力层，得到位置向量输出；将所述内容向量输出以及位置向量输出进行拼接，并输入到编码器模块的残差网络中，得到编码的语义向量。 2.一种基于翻译的跨语言短语结构分析装置，其特征在于，所述装置包括：获取模块，用于获取待分析的句子；输入模块，用于将所述待分析的句子输入到构建好的跨语言短语结构分析模型；其中，所述跨语言短语结构分析模型包括短语结构树库构建模块以及短语结构解析器模块；输出模块，用于根据所述待分析的句子、短语结构树库构建模块以及短语结构解析器模块，得到待分析的句子的短语结构分析结果；所述跨语言短语结构分析模型的构建过程包括： S21、获取源语言短语结构树库； S22、将所述源语言短语结构树库输入到所述短语结构树库构建模块，得到目标语言短权　利　要　求　书 2/4 页 3 CN 114626363 B 3

专利 一种基于翻译的跨语言短语结构分析方法及装置

专利一种基于翻译的跨语言短语结构分析方法及装置