说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211051620.9 (22)申请日 2022.08.31 (71)申请人 中国工商银行股份有限公司 地址 100140 北京市西城区复兴门内大街 55号 (72)发明人 章宗杰 余振 吴政楠 殷富成  (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 专利代理师 谢曲曲 (51)Int.Cl. G06F 16/23(2019.01) G06F 16/332(2019.01) (54)发明名称 语料库更新方法、 装置、 计算机设备、 存储介 质和产品 (57)摘要 本申请涉及一种语料库更新方法、 装置、 计 算机设备、 存储介质和计算机程序产品。 方法包 括: 获取特定业务领域的初始 语料库以及特定业 务领域中用户标识对应的历史行为数据、 历史问 答画像; 历史行为数据、 历史问答画像以及初始 语料库中包括问答对; 从初始 语料库以及用户标 识对应的历史行为数据、 历史问答画像中, 确定 满足预设条件的目标问答对; 预设条件包括问答 对的准确率高于预设准确率阈值; 根据满足预设 条件的目标问答对, 对特定业务领域的初始语料 库进行更新。 本申请是对初始语料库 自动更新, 避免了传统方法中特定业务领域的专家需要耗 费大量时间去构建特定业务领域的词典的问题, 降低了语料库更新的成本, 提高了语料库更新的 效率。 权利要求书2页 说明书21页 附图7页 CN 115422214 A 2022.12.02 CN 115422214 A 1.一种语料库更新方法, 其特 征在于, 所述方法包括: 获取特定业务领域的初始语料库以及所述特定业务领域中用户标识对应的历史行为 数据、 历史问答画像; 所述历史行为数据、 所述历史问答画像以及所述初始语料库中包括问 答对; 从所述初始语料库以及所述用户标识对应的历史行为数据、 历史问答画像中, 确定满 足预设条件的目标问答对; 所述预设条件 包括所述问答对的准确率高于预设准确率阈值; 根据所述满足预设条件的目标问答对, 对所述特定业 务领域的初始语料库进行 更新。 2.根据权利要求1所述的方法, 其特征在于, 所述从所述初始语料库以及所述用户标识 对应的历史行为数据、 历史问答画像中, 确定满足预设条件的目标问答对, 包括: 通过协同过滤算法从所述初始语料库以及所述用户标识对应的历史行为数据、 历史问 答画像中, 确定满足预设条件的目标问答对。 3.根据权利要求2所述的方法, 其特征在于, 所述通过协同过滤算法从所述初始语料库 以及所述用户标识对应的历史行为数据、 历史问答画像中, 确定满足预设条件的目标问答 对, 包括: 根据所述用户标识对应的历史行为数据、 历史问答画像, 生成第一矩阵; 所述第 一矩阵 用于表征所述用户标识对应的历史行为数据、 历史问答画像中的历史问答对之 间的对应关 系; 根据所述用户标识对应的历史问答画像及所述初始语料库, 生成第二矩阵; 所述第二 矩阵用于表征所述历史问答画像中的历史问答对与所述初始语料库中的初始问答对之间 的对应关系; 通过协同过滤算法从所述第 一矩阵与所述第 二矩阵中, 确定满足预设条件的目标问答 对。 4.根据权利要求3所述的方法, 其特征在于, 所述历史行为数据包括所述用户标识对应 的历史问答对以及所述历史问答对的准确率; 所述历史问答画像包括所述用户标识对应的 历史问答对以及所述历史问答对中历史问题的标签; 所述根据所述用户标识对应的历史行为数据、 历史问答画像, 生成第一矩阵, 包括: 从所述历史行为数据和所述历史问答画像中, 获取所述用户标识对应的历史问答对、 所述历史问答对中历史问题的标签、 所述历史问答对的准确率之间的对应关系; 根据所述用户标识对应的历史问答对、 所述历史问答对中历史问题的标签、 所述历史 问答对的准确率之间的对应关系, 生成第一矩阵。 5.根据权利要求4所述的方法, 其特征在于, 所述根据所述用户标识对应的历史问答画 像及所述初始语料库, 生成第二矩阵, 包括: 从所述初始语料库中获取初始问答对, 获取所述初始问答对与 所述历史问答画像 中的 所述用户标识对应的历史问答对之间的对应关系; 根据所述初始问答对与所述历史问答画像中的所述用户标识对应的历史问答对之间 的对应关系, 生成第二矩阵。 6.根据权利要求3 ‑5中任一项所述的方法, 其特征在于, 通过协同过滤算法从所述第一 矩阵与所述第二矩阵中, 确定满足预设条件的目标问答对, 包括: 根据所述历史问答对的准确率的大小, 采用协同过滤算法对所述第 一矩阵与 所述第二权 利 要 求 书 1/2 页 2 CN 115422214 A 2矩阵中的所述历史问答对以及所述初始问答对进行排序, 生成排序结果; 从所述排序结果中, 确定准确率高于所述预设准确率阈值的目标问答对。 7.根据权利要求4中所述的方法, 其特征在于, 所述获取所述特定业务领域中用户标识 对应的历史行为数据, 包括: 从所述特定业 务领域的智能问答系统中, 获取 所述用户标识对应的历史问答对; 获取所述用户标识对所述历史问答对的评分数据, 根据 所述历史问答对的评分数据生 成所述历史问答对的准确率; 根据所述用户标识对应的历史问答对以及所述历史问答对的准确率, 生成所述用户标 识对应的历史行为数据。 8.根据权利要求7所述的方法, 其特征在于, 所述获取所述用户标识对所述历史问答对 的评分数据, 包括: 若未获取到所述用户标识对所述历史问答对的评分数据, 则从所述智能问答系统中获 取所述用户标识针对所述问答对的提问次数; 根据所述问答对的提问次数, 生成所述历史问答对的评分数据。 9.根据权利要求7中所述的方法, 其特征在于, 所述获取所述特定业务领域中用户标识 对应的历史问答画像, 包括: 从所述特定业务领域的智能问答系统中, 获取所述用户标识对应的历史问答对; 所述 历史问答对中的历史答案是基于历史问题的标签与所述初始语料库中的初始问答对进行 匹配所确定的; 根据所述用户标识对应的历史问答对以及所述历史问答对中历史问题的标签, 生成所 述用户标识对应的历史问答画像。 10.一种语料库更新装置, 其特 征在于, 所述装置包括: 数据获取模块, 用于获取特定业务领域的初始语料库以及所述特定业务领域中用户标 识对应的历史行为数据、 历史问答画像; 所述历史行为数据、 所述历史问答画像以及所述初 始语料库中包括问答对; 目标问答对确定模块, 用于从所述初始语料库以及所述用户标识对应的历史行为数 据、 历史问答画像中, 确定满足预设条件的目标问答对; 所述预设条件包括所述问答对的准 确率高于预设准确率阈值; 初始语料库更新模块, 用于根据所述满足预设条件的目标问答对, 对所述特定业务领 域的初始语料库进行 更新。 11.一种计算机设备, 包括存储器和 处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处 理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。 12.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。 13.一种计算机程序产品, 包括计算机程序, 其特征在于, 该计算机程序被处理器执行 时实现权利要求1至9中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115422214 A 3

PDF文档 专利 语料库更新方法、装置、计算机设备、存储介质和产品

文档预览
中文文档 31 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语料库更新方法、装置、计算机设备、存储介质和产品 第 1 页 专利 语料库更新方法、装置、计算机设备、存储介质和产品 第 2 页 专利 语料库更新方法、装置、计算机设备、存储介质和产品 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-07 12:42:54上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。