(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221084580 5.0
(22)申请日 2022.07.19
(71)申请人 南京师范大学
地址 210046 江苏省南京市栖霞区文苑路1
号
(72)发明人 周俊生 孙浩桐 谢建业 陈昱衡
钱惠勋
(74)专利代理 机构 南京苏高专利商标事务所
(普通合伙) 32204
专利代理师 张弛
(51)Int.Cl.
G06F 40/117(2020.01)
G06F 40/126(2020.01)
G06F 40/211(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种基于图解析的事 件抽取方法及系统
(57)摘要
本发明公开了一种基于图解析的事件抽取
方法及系统, 通过将输入句子中包含的多个事件
视为整体, 将多个事件链接起来构成事件图, 实
现将对输入句子的抽取事件问题转化为一个对
输入句子分析生成事件图的图解析方法。 该方法
不再依赖于事件触发词, 明确地对多个事件之间
的关联性进行建模, 解决论元共享现象, 缓解长
尾问题; 同时, 基于Tran sformer的生成模型设计
了有效的解码算法, 提高事件抽取的性能; 此外,
采用预训练的序列到序列模型, 使得数据稀 疏性
问题得到改善; 在基于事件图的生成模型中利用
依存句法信息, 使用图注意力神经网络对依存信
息编码, 将依存图编码层和句子编码层的双重注
意力机制进行融合 提升事件抽取的性能。
权利要求书3页 说明书8页 附图2页
CN 115169285 A
2022.10.11
CN 115169285 A
1.一种基于图解析的事 件抽取方法, 其特 征在于, 包 含以下步骤:
1)给定输入文本, 判断给定输入文本的句子中是否包含事件类型, 抽取给定输入文本
的句子中任意一节点作为根节点, 将事件类型节点附加在根节点后作为子节点, 若包含事
件类型, 则该根节点取值为EVTS, 将给定输入文本中的句子中所包含的事件连接构成事件
图, 若不包 含事件类型, 则该根节点取值 为NA, 抽取事 件结束;
2)基于Seq2Seq序列 ‑序列框架, 将事 件图进行线性 化处理, 得到事 件图的线性 化序列;
3)基于事件图的线性化序列, 设计基于Transformer的生成模型及解码算法, 该生成模
型及解码算法具体方式为:
设定x=<x1,...,xn>为给定输入文本的句子, 其中xi表示句子中的第i个单词, i=1,
2...n, 同时, 设定E=<e1,..ej..,en>是句子中的实体提及, 其中ei表示句子中的第i个实
体提及, i=1,2..j..n, 该实体提及总共包含k个实体提及, k为自然数, 其中每个实体提及
都包含头实体和实体 类型, 以此 搭建基于Transformer的生成模型;
基于Transformer的生成模型需要依次解码标记列表y=<y1,...,ym>, 其中yi为标记
列表的第i个标记, i=1,2...m, 标记yi的取值为事件类型、 事件论元即实体提及、 论元角
色、 实体类型、 特殊指针符号中的任意 一项;
4)采用预训练的语言模型BART将基于Transformer的生成模型转化为Encoder ‑
Decoder架构, 完成事 件抽取结果学习。
2.根据权利要求1所述的基于图解析的事件抽取方法, 其特征在于, 步骤2)中, 线性化
处理采用深度优先遍历及宽度优先遍历两种线性化处理方式, 同时加入实体类型节点, 设
计调换节点和边的遍历顺序。
3.根据权利要求2所述的基于图解析的事件抽取方法, 其特征在于, 步骤3)中, 当生成
模型在为特定的事件类型节点生成论元节点的时, 生成模型将每个论元的头实体作为论元
进行输出, 设定Y为输出解的空间, 生成模型的目标变成寻找给定输入文本的句 子x的节点
序列:
则采用基于Transformer的编码器进行编码, 采用如下解码器进行解码:
P(yj|x,y<j)=soft max(g(sj))
其中, p、 P均为概率, y<j为给定第j个位置之前的各节点值, hi为上下文隐藏向量,
Encoder为Transformer的编码器, sj为通过解码器依次产生的m个解码符号, Decoder为解
码器, yj为第j个标记。
4.根据权利要求3所述的基于 图解析的事件抽取方法, 其特征在于, 解码算法完成后,
基于图解析的事件抽取方法, 利用依存句法信息对基于Tr ansformer的生成模型解码后结权 利 要 求 书 1/3 页
2
CN 115169285 A
2果进行进一步抽取; 该依存句法信息采用图注意力神经网络对依存图进行编码, 将依存图
编码层及句子编码层的双重注意力机制进行融合, 具体包 含:
获取到上下文隐藏向量{hi,hi+1,...,hi+m‑1}和句法依存图隐向量{h ′i,h′i+1,...,
h′i+m‑1}, 应用平均池化 函数, 得到上 下文表示hcon和依存图表示hsyn;
hcon=pool(hi,hi+1,...,hi+m‑1)
hsyn=pool(h′i,h′i+1,...,h′i+m‑1)
其中, pool为池化层, 采用门控机制将上下文表示hcon和依存图表示hsyn进行两者特征
融合, 依存图表示hsyn被融合到上 下文表示hcon中, 如下公式所示:
其中
是乘积操作, 函数g的具体 计算方式如下公式所示:
g=σ(Wg[hsyn; hcon]+bg)
其中, [hsyn; hcon]是hcon和hsyn的拼接, Wg和bg是生成模型的参数。
5.一种基于 图解析的事件抽取系统, 其特征在于, 包含判断模块、 线性化模块、 生成模
型及解码模块、 转换 学习模块;
判断模块用以给定输入文本, 判断给定输入文本的句子中是否包含事件类型, 抽取给
定输入文本的句子中任意一节点作为根节点, 将事件类型节点附加在根节点后作为子节
点, 若包含事件类型, 则该根节点取值为EVTS, 将给定输入文本中的句子中所包含的事件连
接构成事 件图, 若不包 含事件类型, 则该根节点取值 为NA, 抽取事 件结束;
线性化模块用以基于Seq2Seq序列 ‑序列框架, 将事件图进行线性化处理, 得到事件图
的线性化序列;
生成模型及解码模块用以基于事件图的线性化序列, 设计基于Transformer的生成模
型及解码算法, 该生成模型及解码算法具体方式为:
设定x=<x1,...,xn>为给定输入文本的句子, 其中xi表示句子中的第i个单词, i=1,
2...n, 同时, 设定E=<e1,..ej..,en>是句子中的实体提及, 其中ei表示句子中的第i个实
体提及, i=1,2..j..n, 该实体提及总共包含k个实体提及, k为自然数, 其中每个实体提及
都包含头实体和实体 类型, 以此 搭建基于Transformer的生成模型;
基于Transformer的生成模型需要依次解码标记列表y=<y1,...,ym>, 其中yi为标记
列表的第i个标记, i=1,2...m, 标记yi的取值为事件类型、 事件论元即实体提及、 论元角
色、 实体类型、 特殊指针符号中的任意 一项;
转换学习模块用以采用预训练的语言模型BA RT将基于Transformer的生成模型转化为
Encoder‑Decoder架构, 完成事 件抽取结果学习。
6.根据权利要求5所述的基于 图解析的事件抽取系统, 其特征在于, 线性化模块中, 线
性化处理采用深度优先遍历及宽度优先遍历两种线性化处理方式, 同时加入实体类型节
点, 设计调换节点和边的遍历顺序。
7.根据权利要求6所述的基于图解析的事件抽取系统, 其特征在于, 生成模型及解码模
块中, 当生成模型在为特定的事件类型节点生成论元节点的时, 生成模型将每个论元 的头
实体作为论元进行输出, 设定Y为输出解的空间, 生成模型的目标变成寻找给定输入文本的
句子x的节点序列:权 利 要 求 书 2/3 页
3
CN 115169285 A
3
专利 一种基于图解析的事件抽取方法及系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:38上传分享