说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221084580 5.0 (22)申请日 2022.07.19 (71)申请人 南京师范大学 地址 210046 江苏省南京市栖霞区文苑路1 号 (72)发明人 周俊生 孙浩桐 谢建业 陈昱衡  钱惠勋  (74)专利代理 机构 南京苏高专利商标事务所 (普通合伙) 32204 专利代理师 张弛 (51)Int.Cl. G06F 40/117(2020.01) G06F 40/126(2020.01) G06F 40/211(2020.01) G06F 40/30(2020.01) (54)发明名称 一种基于图解析的事 件抽取方法及系统 (57)摘要 本发明公开了一种基于图解析的事件抽取 方法及系统, 通过将输入句子中包含的多个事件 视为整体, 将多个事件链接起来构成事件图, 实 现将对输入句子的抽取事件问题转化为一个对 输入句子分析生成事件图的图解析方法。 该方法 不再依赖于事件触发词, 明确地对多个事件之间 的关联性进行建模, 解决论元共享现象, 缓解长 尾问题; 同时, 基于Tran sformer的生成模型设计 了有效的解码算法, 提高事件抽取的性能; 此外, 采用预训练的序列到序列模型, 使得数据稀 疏性 问题得到改善; 在基于事件图的生成模型中利用 依存句法信息, 使用图注意力神经网络对依存信 息编码, 将依存图编码层和句子编码层的双重注 意力机制进行融合 提升事件抽取的性能。 权利要求书3页 说明书8页 附图2页 CN 115169285 A 2022.10.11 CN 115169285 A 1.一种基于图解析的事 件抽取方法, 其特 征在于, 包 含以下步骤: 1)给定输入文本, 判断给定输入文本的句子中是否包含事件类型, 抽取给定输入文本 的句子中任意一节点作为根节点, 将事件类型节点附加在根节点后作为子节点, 若包含事 件类型, 则该根节点取值为EVTS, 将给定输入文本中的句子中所包含的事件连接构成事件 图, 若不包 含事件类型, 则该根节点取值 为NA, 抽取事 件结束; 2)基于Seq2Seq序列 ‑序列框架, 将事 件图进行线性 化处理, 得到事 件图的线性 化序列; 3)基于事件图的线性化序列, 设计基于Transformer的生成模型及解码算法, 该生成模 型及解码算法具体方式为: 设定x=<x1,...,xn>为给定输入文本的句子, 其中xi表示句子中的第i个单词, i=1, 2...n, 同时, 设定E=<e1,..ej..,en>是句子中的实体提及, 其中ei表示句子中的第i个实 体提及, i=1,2..j..n, 该实体提及总共包含k个实体提及, k为自然数, 其中每个实体提及 都包含头实体和实体 类型, 以此 搭建基于Transformer的生成模型; 基于Transformer的生成模型需要依次解码标记列表y=<y1,...,ym>, 其中yi为标记 列表的第i个标记, i=1,2...m, 标记yi的取值为事件类型、 事件论元即实体提及、 论元角 色、 实体类型、 特殊指针符号中的任意 一项; 4)采用预训练的语言模型BART将基于Transformer的生成模型转化为Encoder ‑ Decoder架构, 完成事 件抽取结果学习。 2.根据权利要求1所述的基于图解析的事件抽取方法, 其特征在于, 步骤2)中, 线性化 处理采用深度优先遍历及宽度优先遍历两种线性化处理方式, 同时加入实体类型节点, 设 计调换节点和边的遍历顺序。 3.根据权利要求2所述的基于图解析的事件抽取方法, 其特征在于, 步骤3)中, 当生成 模型在为特定的事件类型节点生成论元节点的时, 生成模型将每个论元的头实体作为论元 进行输出, 设定Y为输出解的空间, 生成模型的目标变成寻找给定输入文本的句 子x的节点 序列: 则采用基于Transformer的编码器进行编码, 采用如下解码器进行解码: P(yj|x,y<j)=soft max(g(sj)) 其中, p、 P均为概率, y<j为给定第j个位置之前的各节点值, hi为上下文隐藏向量, Encoder为Transformer的编码器, sj为通过解码器依次产生的m个解码符号, Decoder为解 码器, yj为第j个标记。 4.根据权利要求3所述的基于 图解析的事件抽取方法, 其特征在于, 解码算法完成后, 基于图解析的事件抽取方法, 利用依存句法信息对基于Tr ansformer的生成模型解码后结权 利 要 求 书 1/3 页 2 CN 115169285 A 2果进行进一步抽取; 该依存句法信息采用图注意力神经网络对依存图进行编码, 将依存图 编码层及句子编码层的双重注意力机制进行融合, 具体包 含: 获取到上下文隐藏向量{hi,hi+1,...,hi+m‑1}和句法依存图隐向量{h ′i,h′i+1,..., h′i+m‑1}, 应用平均池化 函数, 得到上 下文表示hcon和依存图表示hsyn; hcon=pool(hi,hi+1,...,hi+m‑1) hsyn=pool(h′i,h′i+1,...,h′i+m‑1) 其中, pool为池化层, 采用门控机制将上下文表示hcon和依存图表示hsyn进行两者特征 融合, 依存图表示hsyn被融合到上 下文表示hcon中, 如下公式所示: 其中 是乘积操作, 函数g的具体 计算方式如下公式所示: g=σ(Wg[hsyn; hcon]+bg) 其中, [hsyn; hcon]是hcon和hsyn的拼接, Wg和bg是生成模型的参数。 5.一种基于 图解析的事件抽取系统, 其特征在于, 包含判断模块、 线性化模块、 生成模 型及解码模块、 转换 学习模块; 判断模块用以给定输入文本, 判断给定输入文本的句子中是否包含事件类型, 抽取给 定输入文本的句子中任意一节点作为根节点, 将事件类型节点附加在根节点后作为子节 点, 若包含事件类型, 则该根节点取值为EVTS, 将给定输入文本中的句子中所包含的事件连 接构成事 件图, 若不包 含事件类型, 则该根节点取值 为NA, 抽取事 件结束; 线性化模块用以基于Seq2Seq序列 ‑序列框架, 将事件图进行线性化处理, 得到事件图 的线性化序列; 生成模型及解码模块用以基于事件图的线性化序列, 设计基于Transformer的生成模 型及解码算法, 该生成模型及解码算法具体方式为: 设定x=<x1,...,xn>为给定输入文本的句子, 其中xi表示句子中的第i个单词, i=1, 2...n, 同时, 设定E=<e1,..ej..,en>是句子中的实体提及, 其中ei表示句子中的第i个实 体提及, i=1,2..j..n, 该实体提及总共包含k个实体提及, k为自然数, 其中每个实体提及 都包含头实体和实体 类型, 以此 搭建基于Transformer的生成模型; 基于Transformer的生成模型需要依次解码标记列表y=<y1,...,ym>, 其中yi为标记 列表的第i个标记, i=1,2...m, 标记yi的取值为事件类型、 事件论元即实体提及、 论元角 色、 实体类型、 特殊指针符号中的任意 一项; 转换学习模块用以采用预训练的语言模型BA RT将基于Transformer的生成模型转化为 Encoder‑Decoder架构, 完成事 件抽取结果学习。 6.根据权利要求5所述的基于 图解析的事件抽取系统, 其特征在于, 线性化模块中, 线 性化处理采用深度优先遍历及宽度优先遍历两种线性化处理方式, 同时加入实体类型节 点, 设计调换节点和边的遍历顺序。 7.根据权利要求6所述的基于图解析的事件抽取系统, 其特征在于, 生成模型及解码模 块中, 当生成模型在为特定的事件类型节点生成论元节点的时, 生成模型将每个论元 的头 实体作为论元进行输出, 设定Y为输出解的空间, 生成模型的目标变成寻找给定输入文本的 句子x的节点序列:权 利 要 求 书 2/3 页 3 CN 115169285 A 3

.PDF文档 专利 一种基于图解析的事件抽取方法及系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于图解析的事件抽取方法及系统 第 1 页 专利 一种基于图解析的事件抽取方法及系统 第 2 页 专利 一种基于图解析的事件抽取方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:07:38上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。