(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210731813.2
(22)申请日 2022.06.26
(71)申请人 上海理想信息产业 (集团) 有限公司
地址 201315 上海市浦东 新区秀沿西路189
号电信信息园区B4楼
(72)发明人 李铮 代晓菊 孙海 蒋润青
邵琳钰
(74)专利代理 机构 上海方澜知识产权代理事务
所(普通合伙) 31440
专利代理师 李娜
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/284(2020.01)
G06F 40/289(2020.01)
G06F 40/211(2020.01)
(54)发明名称
一种基于意图识别的语义拆分信息提取的
实现方法
(57)摘要
本发明涉及智能客服及自然语言处理技术
领域, 且公开了一种基于意图识别的语义拆分信
息提取的实现方法, 包括以下步骤: S1: 分词与词
性标注, 在自动填单文本输入的过程中输入长文
本S, 并对输入长文本S进行分词与词性标注, 得
到标注序列T; S2: 业务要素识别, 根据预设的业
务要素规则, 基于语义序列匹配算法对标注对象
进行业务要素识别, 生成新序列E; S3: 定位意图
边界, 识别序列E中出现的主谓宾结构, 定位意图
边界。 本发 明采用了基于意图的业务内容提取方
法, 能够准确地将业务动作与业务对象相关联,
尤其适合处理包含了多种业务场景的长文本, 在
处理复合业务的场景时能够划分不同的意图区
域, 每个场景都能保证自身的准确性。
权利要求书2页 说明书6页 附图1页
CN 115062625 A
2022.09.16
CN 115062625 A
1.一种基于意图识别的语义拆分信息提取的实现方法, 其特 征在于, 包括以下步骤:
S1: 分词与词性标注, 在自动填单文本输入的过程中输入长文本S, 并对输入长文本S进
行分词与词性标注, 得到标注序列T{t1,t2…tn};
S2: 业务要素识别, 根据 预设的业务要素规则, 基于语义序列匹配算法对标注对象进行
业务要素识别, 生成新序列E{e1,e2,…en};
S3: 定位意图边界, 识别序列E中出现的主谓宾结构, 定位 意图边界;
S4: 文本切分, 根据意图边界, 将文本切分为短句集 合P;
S5: 识别业务场景, 根据预设的业务场景特征规则, 识别集合P中分句关联的业务场景,
得到业务场景集 合以及每 个业务场景和短句的关联;
S6: 生成工单, 根据预设的业务场景字段规则, 从当前业务场景关联的短句中, 提取有
效的业务要素填充到对应工单字段中, 为每 个业务场景生成工单。
2.根据权利要求1所述的一种基于意图识别的语义拆分信息提取的实现方法, 其特征
在于, 所述S2中预设的业务要素规则组成形式为词性、 文本、 逻辑运算符、 推理运算符构成
的正则序列, 如果标注序列中的某段子序列满足规则条件, 则进 行业务要 素转换; 所有的规
则条目会按照优先级顺序依次检查, 从而完成要素识别。
3.根据权利要求2所述的一种基于意图识别的语义拆分信息提取的实现方法, 其特征
在于, 所述S2中在规则的组成序列中, 三种类型的规则元素所代表的含义包括: 词性 或文本
型、 逻辑运算符型、 逻辑推理型, 词性或文本型为直接比对标注对象的文本或词性, 逻辑运
算符型用来描述规则元素之间的联系, 相邻的距离限制、 顺序等价性、 逻辑的是、 否、 与、 或
操作、 通配符, 逻辑推理型中表示如规则带有逻辑推理, 则需要最后将标注序列作为参数,
输入到规则对应的知识推理机中进行实体识别。
4.根据权利要求3所述的一种基于意图识别的语义拆分信息提取的实现方法, 其特征
在于, 所述S2中在运行时还 包括如下步骤:
S201, 每条规则从标注序列T的每一个元 素tx作为起点, 进行连续子序列遍历检查;
S202, 对规则序列中的每个规则对象, 检查子序列中对应标注对象是否满足要求, 规则
对象中的词性和文本类对 象直接进行比对判断是否满足, 如果规则带有逻辑推理, 则需要
额外进行推理运 算;
S203, 如果规则不满足, 则以tx+1为起点子序列开始, 重新进行规则序列检查;
S204, 如果所有 规则对象都满足要 求, 则当前规则检查通过, 将子序列 [tx~tx+k]从原始
序列中移除, 在原子序列起点插入一个新的标注对象ex, 标注对象的标签为规则对象的标
签, 标注对象的文本为子序列的对象文本拼接。 如果规则对象包含推理, 则使用推理结果作
为ex的文本;
S205, 规则满足, 则从tx+k+1为起点, 重复S203的步骤, 如果tx+k+1到tn的子序列长度小于
规则长度, 则当前规则检查结束, 从规则列表中读取下一条规则重复S201步骤, 直到完成所
有规则的检查。
5.根据权利要求1所述的一种基于意图识别的语义拆分信息提取的实现方法, 其特征
在于, 所述S3中在定位 意图边界还 包括以下步骤:
S301, 找出要素序列E中所有的业务动词, 作为谓语, 并对每一个谓语依次执行主谓宾
结构检查;权 利 要 求 书 1/2 页
2
CN 115062625 A
2S302, 向前遍历每一个要素, 检查其类型是否可以作 为主语, 如果满足则加入当前主谓
宾结构的主语集 合中;
S303, 如果遇到句号、 另一个主谓宾结构的边界或到达句首, 结束前向遍历, 当前位置
或最后遇 到的标点符号 为前边界;
S304, 向后遍历每一个要素, 检查其类型是否可以作 为宾语, 如果满足则加入当前主谓
宾结构的宾语集 合中;
S305, 如果遇到句号、 后续谓语、 只能作 为主语的要素或到达句尾, 结束后向遍历。 当前
位置或最后遇 到的标点符号 为后边界;
S306, 校验当前主谓宾结构, 如果主语和宾语均不为空, 则可以作为一个有效的意 图,
然后根据动作分类模型对谓语进行分类标注;
S307, 结果当前的结构检查, 继续下一个谓语的结构检查, 直到对所有谓语完成检查操
作。
6.根据权利要求1所述的一种基于意图识别的语义拆分信息提取的实现方法, 其特征
在于, 所述S 5中包含了业务场景特征规则, 每个规则由一个主谓宾关系式构成, 其业务含义
为: 对某个产品或设备进行某种动作, 规则关系式中, 谓语为动作意图的表达式, 主语和宾
语由要素筛选式构成, 三者由逻辑运算符连接, 构成正则序列, 对于一个业务场景, 如果句
子满足其所关联的任何一个特 征规则, 则说明当前句子包 含该场景;
在规则关系式中, 动作意图表达式用来进行谓语筛选, 筛选模式有三种: 文本比对、 词
性筛选、 意图标签筛选, 要 素筛选式包含类型筛选、 参数筛选、 文本筛选, 主语和宾语对象可
以使用多个要素筛 选式, 通过逻辑 运算符来组成复合筛 选条件。
7.根据权利要求6所述的一种基于意图识别的语义拆分信息提取的实现方法, 其特征
在于, 所述S 6中, 每个场景的工单字段从文中提取要 素, 所使用和步骤S 5中相同的要 素筛选
式定义。
8.根据权利要求1所述的一种基于意图识别的语义拆分信息提取的实现方法, 其特征
在于, 所述S2中包括业务规则管理单元, 且业务规则管理单元包括: 业务要素识别 单元、 意
图分析单元、 工单生成单元, 业务要 素识别单元和意图分析单元连接有语义算法单元, 业务
要素识别单 元接收文本 输入的数据, 工单生成单 元生成工单后进行输出。权 利 要 求 书 2/2 页
3
CN 115062625 A
3
专利 一种基于意图识别的语义拆分信息提取的实现方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:52上传分享