说明:收录90万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210718762.X (22)申请日 2022.06.23 (71)申请人 中电通商数字技 术 (上海) 有限公司 地址 200120 上海市浦东 新区自由贸易试 验区奥纳路18 8号1幢楼5层5 36室 (72)发明人 陆瑾 苑洪亮 周澳 王晓伟 刘志伟 王芷若 吕兰兰 (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 李宏志 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06F 16/28(2019.01)G06N 20/00(2019.01) (54)发明名称 一种基于深度学习的数据解析方法、 装置以 及介质 (57)摘要 本申请公开了一种基于深度学习的数据解 析方法、 装置以及介质, 应用于深度学习领域。 该 方法先获取文本数据中的标准词和候选词, 候选 词为文本 数据中区别于标准词的其他词, 而其中 有候选词与标准词是表述同一实体的, 这种候选 词称为与标准词对应的相关词。 将标准词和候选 词输入至语义模 型, 就可通过语义模 型得到与标 准词表述同一实体的相关词; 然后将文本数据中 的相关词转化为对应的标准词, 文本数据中各实 体均通过标准词来表述, 最后 在文本数据中抽取 各实体之间的关系。 本申请实施例提供的方法, 不需要在实体的各种表述上设置标签, 直接将各 种表述统一转换为标准词来表述, 减少了工作 量, 最后得到实体和各实体间的关系, 即得到了 结构化数据。 权利要求书2页 说明书8页 附图3页 CN 115186659 A 2022.10.14 CN 115186659 A 1.一种基于深度学习的数据解析 方法, 其特 征在于, 包括: 获取半结构化数据和/或非结构化数据的文本数据中的标准词和候选词, 其中, 所述候 选词为所述文本数据中区别于所述标准词的其 他词; 将所述标准词和所述候选词输入至语义模型以得到在各所述候选词中与所述标准词 表述同一实体的相关词; 将所述文本数据中的所述相关词转 化为对应的所述标准词; 在所述文本数据中抽取 各所述实体之间的关系。 2.根据权利要求1所述的基于深度学习的数据解析方法, 其特征在于, 所述在所述文本 数据中抽取 各所述实体之间的关系包括: 将所述文本数据输入预测矩阵以抽取各所述实体之间的关系; 其中, 所述预测矩阵是 根据历史文本数据中各 所述实体的语义特 征和位置特 征训练得到的。 3.根据权利要求2所述的基于深度学习的数据解析方法, 其特征在于, 构建所述预测矩 阵包括: 获取所述文本数据所在领域的关系表; 针对所述关系表中的每种关系构建相应的预测矩阵。 4.根据权利要求1至3任意一项所述的基于深度学习的数据解析方法, 其特征在于, 获 取所述文本数据中的所述标准词包括: 通过文本匹配算法将所述标准词表与所述文本数据进行匹配以获取 所述标准词。 5.根据权利要求4所述的基于深度学习的数据解析方法, 其特征在于, 获取所述文本数 据中的所述 候选词包括: 通过分词算法对所述文本数据进行分词; 通过关键词筛 选算法筛 选出权重高于权重阈值的词作为所述 候选词。 6.根据权利要求5所述的基于深度学习的数据解析方法, 其特征在于, 所述将所述标准 词和所述候选词输入至语义模型以得到在各所述候选词中与所述标准词表述同一实体的 相关词包括: 输入所述标准词以训练所述语义模型; 将所述候选词输入训练后的所述语义模型以进行相似度计算; 取与所述标准词的相似度高于相似度阈值的所述候选词作为与所述标准词对应的所 述相关词。 7.根据权利要求6所述的基于深度学习的数据解析方法, 其特征在于, 所述文本匹配算 法包括AC自动机和/或KMP算法; 所述分词算法包括jieba算法; 所述关键词筛 选算法包括TF ‑IDF算法; 所述语义模型包括 word2vec和/或BERT。 8.一种基于深度学习的数据解析装置, 其特 征在于, 包括: 获取模块, 用于获取文本数据中的标准词和候选词, 其中, 所述候选词为所述文本数据 中区别于所述标准词的其 他词; 输入模块, 用于将所述标准词和所述候选词输入至语义模型以得到在各所述候选词中 与所述标准词表述同一实体的相关词;权 利 要 求 书 1/2 页 2 CN 115186659 A 2转化模块, 用于将所述相关词转 化为对应的所述标准词; 抽取模块, 用于在所述文本数据中抽取 各所述实体之间的关系。 9.一种基于深度学习的数据解析装置, 其特征在于, 包括存储器, 用于存储计算机程 序; 处理器, 用于执行所述计算机程序时实现如权利要求1至7任一项所述的基于深度 学习 的数据解析 方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 所述计算机程序被处理器执行时实现如权利要求 1至7任一项 所述的基于深度学习的 数据解析 方法的步骤。权 利 要 求 书 2/2 页 3 CN 115186659 A 3
专利 一种基于深度学习的数据解析方法、装置以及介质
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:08:13
上传分享
举报
下载
原文档
(560.9 KB)
分享
友情链接
TB-T 3143-2018 机车车辆密接式车钩缓冲装置.pdf
GB-T 42005.2-2022 轨道交通 储能式电车 第2部分:地面充电系统.pdf
GB-T 36626-2018 信息安全技术 信息系统安全运维管理指南.pdf
奇安信 中国首席安全官研究报告.pdf
GB-T 7044-2022 色素炭黑.pdf
DB12-T 1083-2021 公务用车平台运行管理规范 天津市.pdf
ISO17799-2005 信息安全管理实施指南 中文.pdf
GB-T 42195-2022 老年人能力评估规范.pdf
DB32-T 4144-2021 公共信用信息平台运行维护管理规范 江苏省.pdf
GB 9706.236-2021 医用电气设备 第2-36部分:体外引发碎石设备的基本安全和基本性能专用要求.pdf
GB 1589-2016 汽车、挂车及汽车列车外廓尺寸、 轴荷及质量限值.pdf
GB-T 43267-2023 道路车辆 预期功能安全.pdf
SC-T 4001-2021 渔具基本术语.pdf
GB-T 42147-2022 政府网站网页电子文件元数据.pdf
GB/T 39975-2021 氮化铝陶瓷散热基片.pdf
GB-T 12521-2008 空气潜水减压技术要求.pdf
GB-T 21062.3-2007 政务信息资源交换体系 第3部分:数据接口规范.pdf
数据存储介质管理规范.pdf
GB-T 20278-2022 信息安全技术 网络脆弱性扫描产品安全技术要求和测试评价方法.pdf
NY-T 3630.1-2020 农药利用率田间测定方法第1部分%3A大田作物茎叶喷雾的农药沉积利用率测定方法-诱惑红指示剂法.pdf
1
/
3
14
评价文档
赞助2.5元 点击下载(560.9 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。