说明:收录90万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210639099.4 (22)申请日 2022.06.07 (71)申请人 北京合立春天科技发展 有限公司 地址 100000 北京市石景山区实兴东 街11 号二层56室 (72)发明人 王剑 双锴 周冀 安镇宙 于勇涛 杨健 (74)专利代理 机构 洛阳公信知识产权事务所 (普通合伙) 41120 专利代理师 宋晨炜 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/295(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种文档级别的中文 事件抽取方法 (57)摘要 一种文档级别的中文事件抽取方法, 包括: 步骤1、 从文档中粗筛中文事件数据, 对获取到的 中文事件数据进行预处理后获取事件 数据集; 步 骤2、 对事件数据集制定不同领域下的典型事件 进行标注, 得到每一类事件类别的标注数据集; 步骤3、 构建中文通用领域事件抽取模型: 基于卷 积神经网络和图卷积神经网络, 对 标注数据集进 行特征提取后, 进行事件类别分类和论元角色抽 取。 本方法将原始文档重构为 “图像”结构和图结 构, 完成事件分类和相应论元分类任务, 提高事 件抽取精度和模型的泛化能力。 权利要求书2页 说明书4页 附图1页 CN 114880437 A 2022.08.09 CN 114880437 A 1.一种文档级别的中文事 件抽取方法, 其特 征在于, 所述方法包括: 步骤1、 从文档中粗筛中文事件数据, 对获取到的中文事件数据进行预处理后获取事件 数据集; 步骤2、 对事件数据集制定不同领域下的典型事件进行标注, 得到每一类事件类别的标 注数据集; 步骤3、 构建中文通用领域事件抽取模型: 基于卷积神经网络和图卷积神经网络, 对标 注数据集进行 特征提取后, 进行事 件类别分类和论元角色抽取。 2.如权利要求1所述的一种 文档级别的中文事件抽取方法, 其特征在于: 从文档中粗筛 中文事件数据的方法为, 设置通用领域事 件关键词典, 并设置正则表达式过 滤不相关事 件。 3.如权利要求1所述的一种 文档级别的中文事件抽取方法, 其特征在于: 对中文事件数 据进行预处理的方法包括对原 始数据中不相关事 件的筛选、 网站中特殊标签的删除。 4.如权利要求1所述的一种 文档级别的中文事件抽取方法, 其特征在于: 构建中文通用 领域事件抽取模型, 具体包括: 步骤3.1: 将标注数据集以句子为粒度进行分割, 然后将分割后的所有句子依次输入预 训练模型中, 获得对应的句子向量es; 步骤3.2: 将句子以实体为粒度进行分割, 然后将分割后的所有实体依次输入预训练模 型中, 获得对应的实体向量, 然后将实体向量再输入至卷积神经网络的Maxpool层 对特征进 行压缩, 得到 压缩后实体向量et。 步骤3.3: 对于步骤3.2的压缩后实体向量, 按照从上到下的顺序依次进行排列成文档 向量, 使排列后的文档向量行向量和竖向量维度相等, 将得到的行向量和竖向量维度相等 的文档向量复制2次, 得到最终的文档向量Di; 步骤3.4: 对于步骤3.1中的句子 向量es和步骤3.2中的压缩后实体向量et, 根据不同句 子中实体间和同一句子中实体间的依赖关系构建文档图结构向量Dg; 步骤3.5: 对于步骤3.3中的文档向量Di和步骤3.4中的文档图结构向量Dg, 分别使用卷 积神经网络和图卷积神经网络进行 特征提取; 步骤3.6: 根据标注过程中事件类别和典型事件的论元, 综合步骤3.5中提取的文档向 量Di和步骤4中的文档图结构向量Dg的特征, 对每个句子进行事件类别分类和论元角色抽 取。 5.如权利要求4所述的一种 文档级别的中文事件抽取方法, 其特征在于: 对每个句子进 行事件类型判断和论元角色抽取的具体方法为: 步骤3.6.1: 将文档图结构向量Dg的特征与文档向量Di的特征经过拼接, 然后进行特征 筛选, 最终将进行筛选后的特征向量输入到卷积神经网络的全连接层后, 得到对应的典型 事件类别概 率, 取最大概 率为对应的事 件类别, 完成事 件类别分类; 步骤3.6.2、 将文档图结构向量Dg经过图卷积神经网络提取的特征, 再输入卷积神经网 络的Maxpool层, 得到候选论元向量, 最终将候选论元向量输入到卷积神经网络的全连接 层, 得到对应的事 件类别的论元概 率, 取最大概 率为对应的论元角色, 完成论元角色抽取。 6.如权利要求4所述的一种 文档级别的中文事件抽取方法, 其特征在于: 预训练模型可 采用BERT模型、 W ord2Vec模型或ELMO模型。 7.如权利要求4所述的一种 文档级别的中文事件抽取方法, 其特征在于: 使排列后的文权 利 要 求 书 1/2 页 2 CN 114880437 A 2档向量行向量和竖向量维度相等的具体方法为: 如果压缩后实体向量个数小于压缩后实体 向量的行维数, 则 补充相同维度的0向量, 如果压缩的实体向量个数大于压缩后实体向量的 行维数, 则截断压缩后的实体向量。 8.如权利要求5所述的一种文档级别的中文事件抽取方法, 其特征在于: 步骤3.6.1中 进行特征筛选的方法为, 利用Transformer模型、 长短期记 忆网络和循环神经网络实现。权 利 要 求 书 2/2 页 3 CN 114880437 A 3
专利 一种文档级别的中文事件抽取方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:09:23
上传分享
举报
下载
原文档
(498.9 KB)
分享
友情链接
GB-T 19705-2017 水文仪器信号与接口.pdf
T-CNHAW 0010.1—2022 激光角膜屈光手术技术规范 第1部分:准分子激光角膜屈光手术.pdf
ISO IEC 2382-37 022 Information technology — Vocabulary — Part 37 Biometrics.pdf
DB13-T 5686-2023 多重耐药菌感染患者手术室管理规范 河北省.pdf
国测 2020年教育行业网络安全白皮书.pdf
GB-T 31503-2015 信息安全技术 电子文档加密与签名消息语法.pdf
IIS服务器安全配置基线.doc
GM T 0009-2023 SM2密码算法使用规范.pdf
T-CPQS XF003—2023 灭火器产品维修、更换及售后服务.pdf
NY-T 3544-2020 烟粉虱测报技术规范 露地蔬菜.pdf
GB-T 26249-2010 电子工业用气体 硒化氢.pdf
GB-T 2680-2021 建筑玻璃 可见光透射比、太阳光直接透射比、太阳能总透射比、紫外线透射比及有关窗玻璃参数的测定.pdf
GB-T 17729-2023 长途客车内空气质量要求及检测方法.pdf
T-WJDGC 0010—2022 生产自动化智能控制系统与高效节能技术.pdf
中汽研汽车检验中心 汽车个人信息保护白皮书 2022.pdf
GB-T 42767-2023 城市垃圾收集装置设置通用要求.pdf
GM-T 0001.1-2012 祖冲之序列密码算法:第1部分:算法描述.pdf
GB-T 28726-2012 气体分析 氦离子化气相色谱法.pdf
T-GHDQ 88.1—2022 车辆无线通信安全测试规范 第1部分:车载蓝牙安全测试规范.pdf
GB-T 6826-2005 洗选设备 系列型谱.pdf
1
/
3
8
评价文档
赞助2.5元 点击下载(498.9 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。