说明:收录90万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210561797.7 (22)申请日 2022.05.23 (71)申请人 中国科学院计算 技术研究所 地址 100190 北京市海淀区中关村科 学院 南路6号 (72)发明人 程学旗 郭嘉丰 范意兴 郭建涛 (74)专利代理 机构 北京泛华伟业知识产权代理 有限公司 1 1280 专利代理师 王勇 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于多标签序列标注的指代消解方法 (57)摘要 本发明提供一种基于多标签序列标注的指 代消解方法, 包括: S1、 将待处理文本分割成预设 长度且不重合的多个文本片段; S2、 采用预训练 模型对每个文本片段进行编码得到每个字符的 语义表达; S3、 基于每个字符的语义表达分别判 断每个字符是否属于B I E标签; S4、 基于每个字 符对应的标签, 在连续I标签序列中, 基于 预设的 组合策略组合任意的BE标签对应的字符构成短 语, 其中, 连续I标签序列表示一个连续的字符序 列中的每个字符均具有I标签; S5、 计算任意两个 短语之间的相似性得分, 为每个短语 保留与其相 似性得分排名靠前的预设个数的短语作为其前 置候选短语; S6、 采用排序模型将每个短语的前 置候选短语进行排序并将得分第一的前置候选 短语作为 其互指对象。 权利要求书2页 说明书8页 附图1页 CN 114997177 A 2022.09.02 CN 114997177 A 1.一种基于多标签序列标注的指代消解方法, 用于获得待处理文本中每个短语的互指 对象, 其特 征在于, 所述方法包括: S1、 将待处 理文本分割成预设长度且不重合的多个文本片段; S2、 采用预训练模型对每个文本片段进行编码, 以得到每个文本片段中每个字符的语 义表达; S3、 基于步骤S2中获得的每 个字符的语义表达分别判断每 个字符是否属于BIE标签; S4、 基于步骤S3中获得的每个字符对应的标签, 在连续I标签序列中, 基于预设的组合 策略组合任意的BE标签对应的字 符构成短语, 其中, 连续I标签序列表示一个连续的字符序 列中的每 个字符均具有I标签; S5、 计算任意两个短语之间的相似性得分, 为每个短语保留与其相似性得分排名靠前 的预设个数的短语作为 其前置候选短语; S6、 采用排序模型将每个短语的前置候选短语进行排序并将得分第 一的前置候选短语 作为其互指对象。 2.根据权利要求1所述的方法, 其特征在于, 所述预设长度被设置为所述预训练模型支 持的最大长度。 3.根据权利要求2所述的方法, 其特 征在于, 所述预训练模型为SpanBERT模型。 4.根据权利要求3所述的方法, 其特 征在于, 所述预设长度为512。 5.根据权利要求1所述的方法, 其特 征在于, 所述 步骤S3包括: 采用三个二分类器分别判断每个字符是否属于BIE标签, 其中, 三个二分类器分别为B 标签二分类器、 I标签二分类器、 E标签二分类器, 所述B标签二分类器是以预训练模型输出 的字符的语义表达为输入、 字符是否属于B标签为输出预先训练获得的二分类器, 所述I标 签二分类器是以预训练模型输出 的字符的语义表达为输入、 字符是否为I标签为输出预先 训练获得的二分类器, 所述E标签二分类器是以预训练模型输出的字符的语义表达为输入、 字符是否为E标签为输出 预先训练获得的二分类 器。 6.根据权利要求5所述的方法, 其特征在于, 所述步骤S4包括针对步骤S3中获得的文本 片段中每 个字符的标签获得多个连续 I标签序列, 并对每 个连续I标签序列执 行如下步骤: S41、 构建 短语集合和短语起始位置集 合, 并初始化短语起始位置集 合为空集; S42、 遍历当前连续I标签序列中每个字符的B标签和E标签, 将有B标签的字符位置加入 短语起始位置集合, 每遍历到一个E标签时以当前短语起始位置集合中的每一个字符位置 为短语起始位置、 当前E标签对应的字符位置为结束位置生成多个短语并放入短语集 合。 7.根据权利要求1所述的方法, 其特征在于, 所述步骤S5包括采用双线性注意力 机制计 算任意两个短语之 间的相似性得分, 并为每个短语保留与其相似性得分排名靠前的预设个 数的短语作为 其前置候选短语。 8.根据权利要求7 所述的方法, 其特 征在于, 所述预设个数为15 。 9.一种计算机可读存储介质, 其特征在于, 其上存储有计算机程序, 所述计算机程序 可 被处理器执行以实现权利要求1至8任一所述方法的步骤。 10.一种电子设备, 其特 征在于, 包括: 一个或多个处 理器; 存储装置, 用于存储一个或多个程序, 当所述一个或多个程序被所述一个或多个处理权 利 要 求 书 1/2 页 2 CN 114997177 A 2器执行时, 使得 所述电子设备实现如权利要求1至8中任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114997177 A 3
专利 一种基于多标签序列标注的指代消解方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:07:41
上传分享
举报
下载
原文档
(472.9 KB)
分享
友情链接
DB52-T 1636.3-2021 机关事务云 第3部分:国有资产(房地产)管理数据 贵州省.pdf
DB53-T 1269-2024 改性磷石膏用于矿山废弃地生态修复回填技术规范 云南省.pdf
CISP 注册信息安全专业人员培训教材 2019.pdf
GB-T 28420-2012 电子收费 OBE-SAM数据格式和技术要求.pdf
T-CHTS 10031—2021 稳定型天然沥青改性沥青路面技术指南.pdf
SL-T 801-2020 水利一张图空间信息服务规范.pdf
GB-T 31495.1-2015 信息安全技术 信息安全保障指标体系及评价方法 第1部分:概念和模型.pdf
GB-T 16638.4-2008 空气动力学 概念、量和符号 第4部分:飞机的空气动力、力矩及其系数和导数.pdf
GB-T 42002-2022 跨境电子商务交易类产品信息多语种描述 智能手机.pdf
产业互联网联盟 零信任实战白皮书 2019.pdf
GB-T 31497-2024 信息技术 安全技术 信息安全管理 监视、测量、分析和评价.pdf
GB 28381-2012 离心鼓风机能效限定值及节能评价值.pdf
T-CSAE 77—2018 电动汽车再生制动系统制动效能 恒定性试验方法.pdf
GB-T 18451.1-2022 风力发电机组 设计要求.pdf
GB-T 42866-2023 煤化工废水处理与回用技术导则.pdf
GB-T 7779-2018 离心机 型号编制方法.pdf
HJ-T 166-2004 土壤环境监测技术规范.pdf
DB23-T 2979—2021 大豆对大豆拟茎点种腐病抗病性鉴定技术规程 黑龙江省.pdf
SAE_2001-01-2902_Factors Affecting Fuel System Certification Against Lightning Hazards.pdf
GB-T 38634.1-2020 系统与软件工程 软件测试 第1部分:概念和定义.pdf
1
/
3
12
评价文档
赞助2.5元 点击下载(472.9 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。