说明:收录90万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210656656.3 (22)申请日 2022.06.10 (71)申请人 中国科学院软件研究所 地址 100190 北京市海淀区中关村南四街 4 号 (72)发明人 胡韵 何灏 朱庆猛 郑昌文 (74)专利代理 机构 北京君尚知识产权代理有限 公司 11200 专利代理师 邱晓锋 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/216(2020.01) G06F 40/242(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称 一种小型的融合中文词嵌入的命名实体识 别方法和系统 (57)摘要 本发明属于自然语 言处理领域, 特别是命名 实体识别领域, 具体涉及一种小型的融合中文词 嵌入的命名实体识别方法和系统。 现有的融合中 文词嵌入的命名实体识别方法, 存在模型的参数 较多, 运算时间过长的问题, 并不能很好的应用 到小型的移动设备上。 本发明主要包括四个模 块: 字符表示、 单词表示、 句子表示和句子解码, 首先句子中的字符通过字 符嵌入得到字符表示, 之后通过将句子和中文词嵌入进行匹配和BME的 单词映射, 得到单词表示, 然后我们将字符表示 和单词表示连接, 输入到GRU当中, 得到句子表 示, 最后对句子表示进行句子解码, 得到最终的 结果。 通过对于单词表示和句子表示的改进, 最 终实现缩小模型参数和 加快识别速度的要求。 权利要求书2页 说明书5页 附图1页 CN 115114923 A 2022.09.27 CN 115114923 A 1.一种小型的融合中文词嵌入的命名实体识别方法, 其特 征在于, 包括以下步骤: 将句子中的字符输入到预 先训练好的字符嵌入 模块中, 得到 字符表示; 将句子中由字符匹配到的单词转 化为稠密向量, 得到单词表示; 将字符表示和单词表示进行 连接, 利用GRU网络进行句子表示; 将句子表示进行解码, 得到命名实体识别结果。 2.根据权利要求1所述的方法, 其特征在于, 所述字符表示是稠密的向量, 代表字符的 语义信息 。 3.根据权利要求1所述的方法, 其特征在于, 所述将句子中由字符匹配到的单词转化为 稠密向量, 得到单词表示, 包括: 使用BME集合来表征匹配到的不同单词的位置, 之后通过位置矩阵将单词信息进行融 合, 得到单词表示。 4.根据权利要求3所述的方法, 其特征在于, 所述使用BME集合来表征匹配到的不同单 词的位置, 包括: 使用词嵌入中的词典来匹配句子, 对于句子 中的每一个字符c, 得到3个单词集合: 开始 集合B(c), 中间集合M(c), 结束集合E(c); 开始集合包含句子中所有以字符c开头的匹配到 的单词, 中间集合包含句子中所有以字符c为中间的匹配到的单词, 结尾集合包含句子中所 有以字符c为结尾的匹配到的单词; 如果一个字符c在词典中没有相应的单词将其作为开 头、 中间或者结尾, 则在集 合中使用NONE来标识。 5.根据权利要求4所述的方法, 其特征在于, 所述通过位置矩阵将单词信息进行融合, 得到单词表示, 包括: 对于每个单词, 通过预训练词向量将其转化为一个稠密 向量, 之后通过加权的方式将 每个单词集 合映射到一个向量, 对于每 个字符对应的单词集 合S, 得到单词集 合的表示: 其中: z(w)表示单词w在数据集中出现的频率, v(S)表示得到的单词集 合的表示, Word_Embedding表示预训练的词向量, w表示单词集合中的单词, S表示匹配到的单词 集合; 对于所有的单词集合, 使用三个位置矩阵乘以对应单词集合的表示来得到所有单词集 合的表示, 即单词表示: xw=WBv(B(c))+WMv(M(c))+WEv(E(c)) 其中, xw是单词表示; WB、 WM、 WE为位置矩阵, 分别表示训练的参数, 对于不同的位置信息 使用不同的训练参数; v(B(c))表示字符c得到的开始集合的表示; v(M(c))表示字符c得到 的中间集 合的表示; v(E(c) )表示字符c得到的结束集 合的表示。 6.根据权利要求1所述的方法, 其特征在于, 所述利用GRU网络进行句子表示, 是使用双 向GRU网络进行句子表示, 所述双向GRU网络包括一个前向的GRU网络和一个后向的GRU网权 利 要 求 书 1/2 页 2 CN 115114923 A 2络, 得到句子表示 为: ht=Bi‑GRU([ht‑1; xt]) 其中, ht是当前时刻t的句子级别的字符表示, ht‑1是上一时刻的句子级别的字符表示, Bi‑GRU是双向的GRU, xt是当前时刻的字符表示和单词表示的连接 。 7.根据权利要求1所述的方法, 其特征在于, 所述将句子表示进行解码, 是利用句子表 示, 使用条件随机场CRF来建模标签之间的关系, 得到最终的预测标记即命名实体识别结 果。 8.一种小型的融合中文词嵌入的命名实体识别系统, 其特 征在于, 包括以下步骤: 字符表示模块, 用于将句子中的字符输入到预先训练好的字符嵌入模块中, 得到字符 表示; 单词表示模块, 用于将句子中由字符匹配到的单词转 化为稠密向量, 得到单词表示; 句子表示模块, 用于将字符表示和单词表示进行 连接, 利用GRU网络进行句子表示; 句子解码模块, 用于将句子表示进行解码, 得到命名实体识别结果。 9.一种电子装置, 其特征在于, 包括存储器和 处理器, 所述存储器存储计算机程序, 所 述计算机程序被配置为由所述处理器执行, 所述计算机程序包括用于执行权利要求 1~7中 任一权利要求所述方法的指令 。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储计算机程 序, 所述计算机程序被 计算机执 行时, 实现权利要求1~7中任一权利要求所述的方法。权 利 要 求 书 2/2 页 3 CN 115114923 A 3
专利 一种小型的融合中文词嵌入的命名实体识别方法和系统
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:08:54
上传分享
举报
下载
原文档
(412.1 KB)
分享
友情链接
GB-T 25068.3-2022 信息技术 安全技术 网络安全 第3部分:面向网络接入场景的威胁、设计技术和控制.pdf
GB-T 29171-2012 岩石毛管压力曲线的测定.pdf
T-CADERM 3008—2019 严重过敏反应诊断和早期治疗规范.pdf
T-ISC-0011-2021 数据安全治理能力评估方法.pdf
DL-T 741-2019 架空输电线路运行规程.pdf
GB-T 33009.3-2016工业自动化和控制系统网络安全集散控制系统(DCS)第3部分评估指南.pdf
DB12-T 564-2015 低温食品储运温控技术 天津市.pdf
GB/T 31458-2015 医院安全技术防范系统要求.pdf
DB31-T 1385-2022 科技成果分类评价和价值潜力评价规范 上海市.pdf
DB5301-T 99-2023 改性磷石膏综合利用 矿山生态修复 过程环境监管规范 昆明市.pdf
GM-T 0048-2016 智能密码钥匙密码检测规范.pdf
GB-T 34079.4-2021 基于云计算的电子政务公共平台服务规范 第4部分:应用服务.pdf
DB3212-T 1122—2022 机关单位视频会议运维管理规范 泰州市.pdf
T-SLEA 1011.1—2023 实验室设计与建设技术规范 第1部分:通用技术要求.pdf
工信安全发展研究中心 数据安全白皮书 2021.pdf
GB-T 6836-2018 缝纫线.pdf
GM-T 0089-2020 简单证书注册协议规范.pdf
GB-T 24560-2009 电解、电镀设备节能监测.pdf
GB-T 32064-2015 建筑用材料导热系数和热扩散系数瞬态平面热源测试法.pdf
GB-T 22040-2008 公路沿线设施塑料制品耐候性要求及测试方法.pdf
1
/
3
9
评价文档
赞助2.5元 点击下载(412.1 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。