说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210561797.7 (22)申请日 2022.05.23 (71)申请人 中国科学院计算 技术研究所 地址 100190 北京市海淀区中关村科 学院 南路6号 (72)发明人 程学旗 郭嘉丰 范意兴 郭建涛  (74)专利代理 机构 北京泛华伟业知识产权代理 有限公司 1 1280 专利代理师 王勇 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于多标签序列标注的指代消解方法 (57)摘要 本发明提供一种基于多标签序列标注的指 代消解方法, 包括: S1、 将待处理文本分割成预设 长度且不重合的多个文本片段; S2、 采用预训练 模型对每个文本片段进行编码得到每个字符的 语义表达; S3、 基于每个字符的语义表达分别判 断每个字符是否属于B  I E标签; S4、 基于每个字 符对应的标签, 在连续I标签序列中, 基于 预设的 组合策略组合任意的BE标签对应的字符构成短 语, 其中, 连续I标签序列表示一个连续的字符序 列中的每个字符均具有I标签; S5、 计算任意两个 短语之间的相似性得分, 为每个短语 保留与其相 似性得分排名靠前的预设个数的短语作为其前 置候选短语; S6、 采用排序模型将每个短语的前 置候选短语进行排序并将得分第一的前置候选 短语作为 其互指对象。 权利要求书2页 说明书8页 附图1页 CN 114997177 A 2022.09.02 CN 114997177 A 1.一种基于多标签序列标注的指代消解方法, 用于获得待处理文本中每个短语的互指 对象, 其特 征在于, 所述方法包括: S1、 将待处 理文本分割成预设长度且不重合的多个文本片段; S2、 采用预训练模型对每个文本片段进行编码, 以得到每个文本片段中每个字符的语 义表达; S3、 基于步骤S2中获得的每 个字符的语义表达分别判断每 个字符是否属于BIE标签; S4、 基于步骤S3中获得的每个字符对应的标签, 在连续I标签序列中, 基于预设的组合 策略组合任意的BE标签对应的字 符构成短语, 其中, 连续I标签序列表示一个连续的字符序 列中的每 个字符均具有I标签; S5、 计算任意两个短语之间的相似性得分, 为每个短语保留与其相似性得分排名靠前 的预设个数的短语作为 其前置候选短语; S6、 采用排序模型将每个短语的前置候选短语进行排序并将得分第 一的前置候选短语 作为其互指对象。 2.根据权利要求1所述的方法, 其特征在于, 所述预设长度被设置为所述预训练模型支 持的最大长度。 3.根据权利要求2所述的方法, 其特 征在于, 所述预训练模型为SpanBERT模型。 4.根据权利要求3所述的方法, 其特 征在于, 所述预设长度为512。 5.根据权利要求1所述的方法, 其特 征在于, 所述 步骤S3包括: 采用三个二分类器分别判断每个字符是否属于BIE标签, 其中, 三个二分类器分别为B 标签二分类器、 I标签二分类器、 E标签二分类器, 所述B标签二分类器是以预训练模型输出 的字符的语义表达为输入、 字符是否属于B标签为输出预先训练获得的二分类器, 所述I标 签二分类器是以预训练模型输出 的字符的语义表达为输入、 字符是否为I标签为输出预先 训练获得的二分类器, 所述E标签二分类器是以预训练模型输出的字符的语义表达为输入、 字符是否为E标签为输出 预先训练获得的二分类 器。 6.根据权利要求5所述的方法, 其特征在于, 所述步骤S4包括针对步骤S3中获得的文本 片段中每 个字符的标签获得多个连续 I标签序列, 并对每 个连续I标签序列执 行如下步骤: S41、 构建 短语集合和短语起始位置集 合, 并初始化短语起始位置集 合为空集; S42、 遍历当前连续I标签序列中每个字符的B标签和E标签, 将有B标签的字符位置加入 短语起始位置集合, 每遍历到一个E标签时以当前短语起始位置集合中的每一个字符位置 为短语起始位置、 当前E标签对应的字符位置为结束位置生成多个短语并放入短语集 合。 7.根据权利要求1所述的方法, 其特征在于, 所述步骤S5包括采用双线性注意力 机制计 算任意两个短语之 间的相似性得分, 并为每个短语保留与其相似性得分排名靠前的预设个 数的短语作为 其前置候选短语。 8.根据权利要求7 所述的方法, 其特 征在于, 所述预设个数为15 。 9.一种计算机可读存储介质, 其特征在于, 其上存储有计算机程序, 所述计算机程序 可 被处理器执行以实现权利要求1至8任一所述方法的步骤。 10.一种电子设备, 其特 征在于, 包括: 一个或多个处 理器; 存储装置, 用于存储一个或多个程序, 当所述一个或多个程序被所述一个或多个处理权 利 要 求 书 1/2 页 2 CN 114997177 A 2器执行时, 使得 所述电子设备实现如权利要求1至8中任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114997177 A 3

.PDF文档 专利 一种基于多标签序列标注的指代消解方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多标签序列标注的指代消解方法 第 1 页 专利 一种基于多标签序列标注的指代消解方法 第 2 页 专利 一种基于多标签序列标注的指代消解方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:07:41上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。