专利 一种基于图解析的事件抽取方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221084580 5.0 (22)申请日 2022.07.19 (71)申请人南京师范大学地址 210046 江苏省南京市栖霞区文苑路1 号 (72)发明人周俊生　孙浩桐　谢建业　陈昱衡　钱惠勋　 (74)专利代理机构南京苏高专利商标事务所 (普通合伙) 32204 专利代理师张弛 (51)Int.Cl. G06F 40/117(2020.01) G06F 40/126(2020.01) G06F 40/211(2020.01) G06F 40/30(2020.01) (54)发明名称一种基于图解析的事件抽取方法及系统 (57)摘要本发明公开了一种基于图解析的事件抽取方法及系统，通过将输入句子中包含的多个事件视为整体，将多个事件链接起来构成事件图，实现将对输入句子的抽取事件问题转化为一个对输入句子分析生成事件图的图解析方法。该方法不再依赖于事件触发词，明确地对多个事件之间的关联性进行建模，解决论元共享现象，缓解长尾问题；同时，基于Tran sformer的生成模型设计了有效的解码算法，提高事件抽取的性能；此外，采用预训练的序列到序列模型，使得数据稀疏性问题得到改善；在基于事件图的生成模型中利用依存句法信息，使用图注意力神经网络对依存信息编码，将依存图编码层和句子编码层的双重注意力机制进行融合提升事件抽取的性能。权利要求书3页说明书8页附图2页 CN 115169285 A 2022.10.11 CN 115169285 A 1.一种基于图解析的事件抽取方法，其特征在于，包含以下步骤： 1)给定输入文本，判断给定输入文本的句子中是否包含事件类型，抽取给定输入文本的句子中任意一节点作为根节点，将事件类型节点附加在根节点后作为子节点，若包含事件类型，则该根节点取值为EVTS，将给定输入文本中的句子中所包含的事件连接构成事件图，若不包含事件类型，则该根节点取值为NA，抽取事件结束； 2)基于Seq2Seq序列 ‑序列框架，将事件图进行线性化处理，得到事件图的线性化序列； 3)基于事件图的线性化序列，设计基于Transformer的生成模型及解码算法，该生成模型及解码算法具体方式为：设定x＝＜x1,...,xn＞为给定输入文本的句子，其中xi表示句子中的第i个单词， i＝1, 2...n，同时，设定E＝＜e1,..ej..,en＞是句子中的实体提及，其中ei表示句子中的第i个实体提及， i＝1,2..j..n，该实体提及总共包含k个实体提及， k为自然数，其中每个实体提及都包含头实体和实体类型，以此搭建基于Transformer的生成模型；基于Transformer的生成模型需要依次解码标记列表y＝＜y1,...,ym＞，其中yi为标记列表的第i个标记， i＝1,2...m，标记yi的取值为事件类型、事件论元即实体提及、论元角色、实体类型、特殊指针符号中的任意一项； 4)采用预训练的语言模型BART将基于Transformer的生成模型转化为Encoder ‑ Decoder架构，完成事件抽取结果学习。 2.根据权利要求1所述的基于图解析的事件抽取方法，其特征在于，步骤2)中，线性化处理采用深度优先遍历及宽度优先遍历两种线性化处理方式，同时加入实体类型节点，设计调换节点和边的遍历顺序。 3.根据权利要求2所述的基于图解析的事件抽取方法，其特征在于，步骤3)中，当生成模型在为特定的事件类型节点生成论元节点的时，生成模型将每个论元的头实体作为论元进行输出，设定Y为输出解的空间，生成模型的目标变成寻找给定输入文本的句子x的节点序列：则采用基于Transformer的编码器进行编码，采用如下解码器进行解码： P(yj|x,y＜j)＝soft max(g(sj)) 其中， p、 P均为概率， y＜j为给定第j个位置之前的各节点值， hi为上下文隐藏向量， Encoder为Transformer的编码器， sj为通过解码器依次产生的m个解码符号， Decoder为解码器， yj为第j个标记。 4.根据权利要求3所述的基于图解析的事件抽取方法，其特征在于，解码算法完成后，基于图解析的事件抽取方法，利用依存句法信息对基于Tr ansformer的生成模型解码后结权　利　要　求　书 1/3 页 2 CN 115169285 A 2果进行进一步抽取；该依存句法信息采用图注意力神经网络对依存图进行编码，将依存图编码层及句子编码层的双重注意力机制进行融合，具体包含：获取到上下文隐藏向量{hi,hi+1,...,hi+m‑1}和句法依存图隐向量{h ′i,h′i+1,..., h′i+m‑1}，应用平均池化函数，得到上下文表示hcon和依存图表示hsyn； hcon＝pool(hi,hi+1,...,hi+m‑1) hsyn＝pool(h′i,h′i+1,...,h′i+m‑1) 其中， pool为池化层，采用门控机制将上下文表示hcon和依存图表示hsyn进行两者特征融合，依存图表示hsyn被融合到上下文表示hcon中，如下公式所示：其中是乘积操作，函数g的具体计算方式如下公式所示： g＝σ(Wg[hsyn； hcon]+bg) 其中， [hsyn； hcon]是hcon和hsyn的拼接， Wg和bg是生成模型的参数。 5.一种基于图解析的事件抽取系统，其特征在于，包含判断模块、线性化模块、生成模型及解码模块、转换学习模块；判断模块用以给定输入文本，判断给定输入文本的句子中是否包含事件类型，抽取给定输入文本的句子中任意一节点作为根节点，将事件类型节点附加在根节点后作为子节点，若包含事件类型，则该根节点取值为EVTS，将给定输入文本中的句子中所包含的事件连接构成事件图，若不包含事件类型，则该根节点取值为NA，抽取事件结束；线性化模块用以基于Seq2Seq序列 ‑序列框架，将事件图进行线性化处理，得到事件图的线性化序列；生成模型及解码模块用以基于事件图的线性化序列，设计基于Transformer的生成模型及解码算法，该生成模型及解码算法具体方式为：设定x＝＜x1,...,xn＞为给定输入文本的句子，其中xi表示句子中的第i个单词， i＝1, 2...n，同时，设定E＝＜e1,..ej..,en＞是句子中的实体提及，其中ei表示句子中的第i个实体提及， i＝1,2..j..n，该实体提及总共包含k个实体提及， k为自然数，其中每个实体提及都包含头实体和实体类型，以此搭建基于Transformer的生成模型；基于Transformer的生成模型需要依次解码标记列表y＝＜y1,...,ym＞，其中yi为标记列表的第i个标记， i＝1,2...m，标记yi的取值为事件类型、事件论元即实体提及、论元角色、实体类型、特殊指针符号中的任意一项；转换学习模块用以采用预训练的语言模型BA RT将基于Transformer的生成模型转化为 Encoder‑Decoder架构，完成事件抽取结果学习。 6.根据权利要求5所述的基于图解析的事件抽取系统，其特征在于，线性化模块中，线性化处理采用深度优先遍历及宽度优先遍历两种线性化处理方式，同时加入实体类型节点，设计调换节点和边的遍历顺序。 7.根据权利要求6所述的基于图解析的事件抽取系统，其特征在于，生成模型及解码模块中，当生成模型在为特定的事件类型节点生成论元节点的时，生成模型将每个论元的头实体作为论元进行输出，设定Y为输出解的空间，生成模型的目标变成寻找给定输入文本的句子x的节点序列：权　利　要　求　书 2/3 页 3 CN 115169285 A 3

专利 一种基于图解析的事件抽取方法及系统

专利一种基于图解析的事件抽取方法及系统