说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210731813.2 (22)申请日 2022.06.26 (71)申请人 上海理想信息产业 (集团) 有限公司 地址 201315 上海市浦东 新区秀沿西路189 号电信信息园区B4楼 (72)发明人 李铮 代晓菊 孙海 蒋润青  邵琳钰  (74)专利代理 机构 上海方澜知识产权代理事务 所(普通合伙) 31440 专利代理师 李娜 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/284(2020.01) G06F 40/289(2020.01) G06F 40/211(2020.01) (54)发明名称 一种基于意图识别的语义拆分信息提取的 实现方法 (57)摘要 本发明涉及智能客服及自然语言处理技术 领域, 且公开了一种基于意图识别的语义拆分信 息提取的实现方法, 包括以下步骤: S1: 分词与词 性标注, 在自动填单文本输入的过程中输入长文 本S, 并对输入长文本S进行分词与词性标注, 得 到标注序列T; S2: 业务要素识别, 根据预设的业 务要素规则, 基于语义序列匹配算法对标注对象 进行业务要素识别, 生成新序列E; S3: 定位意图 边界, 识别序列E中出现的主谓宾结构, 定位意图 边界。 本发 明采用了基于意图的业务内容提取方 法, 能够准确地将业务动作与业务对象相关联, 尤其适合处理包含了多种业务场景的长文本, 在 处理复合业务的场景时能够划分不同的意图区 域, 每个场景都能保证自身的准确性。 权利要求书2页 说明书6页 附图1页 CN 115062625 A 2022.09.16 CN 115062625 A 1.一种基于意图识别的语义拆分信息提取的实现方法, 其特 征在于, 包括以下步骤: S1: 分词与词性标注, 在自动填单文本输入的过程中输入长文本S, 并对输入长文本S进 行分词与词性标注, 得到标注序列T{t1,t2…tn}; S2: 业务要素识别, 根据 预设的业务要素规则, 基于语义序列匹配算法对标注对象进行 业务要素识别, 生成新序列E{e1,e2,…en}; S3: 定位意图边界, 识别序列E中出现的主谓宾结构, 定位 意图边界; S4: 文本切分, 根据意图边界, 将文本切分为短句集 合P; S5: 识别业务场景, 根据预设的业务场景特征规则, 识别集合P中分句关联的业务场景, 得到业务场景集 合以及每 个业务场景和短句的关联; S6: 生成工单, 根据预设的业务场景字段规则, 从当前业务场景关联的短句中, 提取有 效的业务要素填充到对应工单字段中, 为每 个业务场景生成工单。 2.根据权利要求1所述的一种基于意图识别的语义拆分信息提取的实现方法, 其特征 在于, 所述S2中预设的业务要素规则组成形式为词性、 文本、 逻辑运算符、 推理运算符构成 的正则序列, 如果标注序列中的某段子序列满足规则条件, 则进 行业务要 素转换; 所有的规 则条目会按照优先级顺序依次检查, 从而完成要素识别。 3.根据权利要求2所述的一种基于意图识别的语义拆分信息提取的实现方法, 其特征 在于, 所述S2中在规则的组成序列中, 三种类型的规则元素所代表的含义包括: 词性 或文本 型、 逻辑运算符型、 逻辑推理型, 词性或文本型为直接比对标注对象的文本或词性, 逻辑运 算符型用来描述规则元素之间的联系, 相邻的距离限制、 顺序等价性、 逻辑的是、 否、 与、 或 操作、 通配符, 逻辑推理型中表示如规则带有逻辑推理, 则需要最后将标注序列作为参数, 输入到规则对应的知识推理机中进行实体识别。 4.根据权利要求3所述的一种基于意图识别的语义拆分信息提取的实现方法, 其特征 在于, 所述S2中在运行时还 包括如下步骤: S201, 每条规则从标注序列T的每一个元 素tx作为起点, 进行连续子序列遍历检查; S202, 对规则序列中的每个规则对象, 检查子序列中对应标注对象是否满足要求, 规则 对象中的词性和文本类对 象直接进行比对判断是否满足, 如果规则带有逻辑推理, 则需要 额外进行推理运 算; S203, 如果规则不满足, 则以tx+1为起点子序列开始, 重新进行规则序列检查; S204, 如果所有 规则对象都满足要 求, 则当前规则检查通过, 将子序列 [tx~tx+k]从原始 序列中移除, 在原子序列起点插入一个新的标注对象ex, 标注对象的标签为规则对象的标 签, 标注对象的文本为子序列的对象文本拼接。 如果规则对象包含推理, 则使用推理结果作 为ex的文本; S205, 规则满足, 则从tx+k+1为起点, 重复S203的步骤, 如果tx+k+1到tn的子序列长度小于 规则长度, 则当前规则检查结束, 从规则列表中读取下一条规则重复S201步骤, 直到完成所 有规则的检查。 5.根据权利要求1所述的一种基于意图识别的语义拆分信息提取的实现方法, 其特征 在于, 所述S3中在定位 意图边界还 包括以下步骤: S301, 找出要素序列E中所有的业务动词, 作为谓语, 并对每一个谓语依次执行主谓宾 结构检查;权 利 要 求 书 1/2 页 2 CN 115062625 A 2S302, 向前遍历每一个要素, 检查其类型是否可以作 为主语, 如果满足则加入当前主谓 宾结构的主语集 合中; S303, 如果遇到句号、 另一个主谓宾结构的边界或到达句首, 结束前向遍历, 当前位置 或最后遇 到的标点符号 为前边界; S304, 向后遍历每一个要素, 检查其类型是否可以作 为宾语, 如果满足则加入当前主谓 宾结构的宾语集 合中; S305, 如果遇到句号、 后续谓语、 只能作 为主语的要素或到达句尾, 结束后向遍历。 当前 位置或最后遇 到的标点符号 为后边界; S306, 校验当前主谓宾结构, 如果主语和宾语均不为空, 则可以作为一个有效的意 图, 然后根据动作分类模型对谓语进行分类标注; S307, 结果当前的结构检查, 继续下一个谓语的结构检查, 直到对所有谓语完成检查操 作。 6.根据权利要求1所述的一种基于意图识别的语义拆分信息提取的实现方法, 其特征 在于, 所述S 5中包含了业务场景特征规则, 每个规则由一个主谓宾关系式构成, 其业务含义 为: 对某个产品或设备进行某种动作, 规则关系式中, 谓语为动作意图的表达式, 主语和宾 语由要素筛选式构成, 三者由逻辑运算符连接, 构成正则序列, 对于一个业务场景, 如果句 子满足其所关联的任何一个特 征规则, 则说明当前句子包 含该场景; 在规则关系式中, 动作意图表达式用来进行谓语筛选, 筛选模式有三种: 文本比对、 词 性筛选、 意图标签筛选, 要 素筛选式包含类型筛选、 参数筛选、 文本筛选, 主语和宾语对象可 以使用多个要素筛 选式, 通过逻辑 运算符来组成复合筛 选条件。 7.根据权利要求6所述的一种基于意图识别的语义拆分信息提取的实现方法, 其特征 在于, 所述S 6中, 每个场景的工单字段从文中提取要 素, 所使用和步骤S 5中相同的要 素筛选 式定义。 8.根据权利要求1所述的一种基于意图识别的语义拆分信息提取的实现方法, 其特征 在于, 所述S2中包括业务规则管理单元, 且业务规则管理单元包括: 业务要素识别 单元、 意 图分析单元、 工单生成单元, 业务要 素识别单元和意图分析单元连接有语义算法单元, 业务 要素识别单 元接收文本 输入的数据, 工单生成单 元生成工单后进行输出。权 利 要 求 书 2/2 页 3 CN 115062625 A 3

.PDF文档 专利 一种基于意图识别的语义拆分信息提取的实现方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于意图识别的语义拆分信息提取的实现方法 第 1 页 专利 一种基于意图识别的语义拆分信息提取的实现方法 第 2 页 专利 一种基于意图识别的语义拆分信息提取的实现方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:07:52上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。