说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210731503.0 (22)申请日 2022.06.24 (71)申请人 北京有竹居网络技 术有限公司 地址 101299 北京市平谷区林荫北街13号 信息大厦802室 (72)发明人 岳聪 许珂瑞 汪洋  (74)专利代理 机构 北京开阳星知识产权代理有 限公司 1 1710 专利代理师 张少萌 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) (54)发明名称 一种文本数据 挖掘方法、 装置及电子设备 (57)摘要 本公开涉及一种文本数据挖掘方法、 装置及 电子设备, 尤其涉及数据挖掘技术领域。 包括: 从 历史会话日志中提取第一问题文本, 以及与第一 问题文本对应的第一回复段落; 将第一问题文本 和第一回复段落输入至目标BERT模型, 获取第一 答案预测文本, 目标BERT模型为基于初 始BERT模 型预训练后得到的模型; 将第一问题文本和第一 答案预测文本对应存储; 其中, 目标BERT模型对 第一回复段落通过以下至少一种第一向量进行 标注: 属性判断向量, 用于表示第一回复段落中 词是否为属性词; 是否类词语判断向量, 用于表 示第一回复段落中词是不是表 示是或否的词语; 重复词判断向量, 用于表示回复段落中词是否出 现在第二问题文本中。 权利要求书2页 说明书13页 附图4页 CN 114925683 A 2022.08.19 CN 114925683 A 1.一种文本数据 挖掘方法, 其特 征在于, 包括: 从历史会话日志中提取第一问题文本, 以及与所述第一问题文本对应的第一回复段 落; 将所述第一问题文本和第一回复段落输入至目标BERT模型, 获取所述目标BERT模型输 出的第一 答案预测文本, 所述目标BERT模型为基于初始BERT模型 预训练后得到的模型; 将所述第一问题文本和所述第一 答案预测文本对应存 储; 其中, 所述目标BERT模型对所述第一回复段落 通过以下至少一种第一向量进行 标注: 属性判断 向量, 用于表示所述第一回复段落中词是否为属性词; 是否类词语判断 向量, 用于表示所述第一回复段落中词是不是表示是或否的词语; 重复词判断 向量, 用于表示所述第一回复段落中词是否出现在所述第一问题文本中。 2.根据权利要求1所述的方法, 其特征在于, 所述将所述第 一问题文本和第 一回复段落 输入至目标BERT模型, 获取 所述目标BERT模型输出的第一 答案预测文本之前, 包括: 获取标注样本数据, 所述标注样本数据中包括多个问题文本, 所述多个问题文本对应 的回复段落, 以及每 个问题文本对应的标注答案文本; 从所述标注样本数据中获取目标问题文本、 所述目标问题文本对应的目标回复段落, 以及所述目标问题文本对应的目标答案文本; 将所述目标问题文本和所述目标 回复段落输入第一BERT模型, 并获取所述第一BERT模 型输出的第二 答案预测文本; 根据所述第二 答案预测文本和所述目标答案文本, 计算损失参数; 基于所述损失参数, 对所述第一BERT模型进行微调, 得到所述目标BERT模型。 3.根据权利要求2所述的方法, 其特征在于, 所述将所述目标问题文本和所述目标回复 段落输入第一BERT模型, 并获取所述第一BERT模型输出的第二答案预测文本之前, 所述方 法还包括: 获取目标文本对数据; 根据所述目标文本对数据对预设BERT模型进行 预训练, 以得到第二BERT模型; 为所述第二BERT模型配置所述至少一种第一向量, 以得到所述第一BERT模型。 4.根据权利要求3所述的方法, 其特征在于, 所述根据所述文本配对数据对预设BERT模 型进行预训练时的预训练任务包括以下至少一种: 掩码语言模型MLM任务、 下一句预测NS P任务。 5.根据权利要求3所述的方法, 其特 征在于, 所述目标文本对数据包括: 目标领域的文本对数据, 和/或, 任意领域的文本对数据。 6.根据权利要求3所述的方法, 特征在于, 所述将所述第 一问题文本和第 一回复段落输 入至目标BERT模型, 获取 所述目标BERT模型输出的第一 答案预测文本, 包括: 所述第一问题文本和所述第一回复段落确定初始答案预测文本; 在根据所述第一问题文本和所述第 一回复段落, 确定所述第 一问题文本为待反转极性 类型时, 从所述第一问题文本中提取系动词; 对所述系动词进行极性反转, 以得到极性反转系动词; 根据所述极性反转系动词和所述初始答案预测文本, 确定所述第一 答案预测文本 。 7.根据权利要求1所述的方法, 其特征在于, 所述目标BERT模型对所述第一回复段落还权 利 要 求 书 1/2 页 2 CN 114925683 A 2通过以下至少一种第二向量进行 标注: 标记向量, 用于将所述第一回复段落中各个词转换成固定维度的向量; 段向量, 用于表示所述第一回复段落是否为同一个句子; 位置向量, 用于表示所述第一回复段落中不同字在所述第一回复段落中的位置 。 8.一种文本数据 挖掘装置, 其特 征在于, 包括: 提取模块, 用于从历史会话日志中提取第一问题文本, 以及与所述第一问题文本对应 的第一回复段落; 答案预测模块, 用于将所述第一问题文本和第一回复段落输入至目标BERT模型, 获取 所述目标BERT模 型输出的第一答案预测文本, 所述目标BERT模 型为基于初始BERT模 型预训 练后得到的模型; 存储模块, 用于将所述第一问题文本和所述第一 答案预测文本对应存 储; 其中, 所述目标BERT模型对所述第一回复段落 通过以下至少一种第一向量进行 标注: 属性判断 向量, 用于表示所述第一回复段落中词是否为属性词; 是否类词语判断 向量, 用于表示所述第一回复段落中词是不是表示是或否的词语; 重复词判断 向量, 用于表示所述第一回复段落中词是否出现在所述第一问题文本中。 9.一种电子设备, 其特征在于, 包括: 处理器、 存储器及存储在所述存储器上并可在所 述处理器上运行的计算机程序, 所述计算机程序被所述处理器执行时实现如权利要求 1至7 中任一项所述的文本数据 挖掘方法。 10.一种计算机可读存储介质, 其特征在于, 包括: 所述计算机可读存储介质上存储计 算机程序, 所述计算机程序被处理器执行时实现如权利要求 1至7中任一项所述的文本数据 挖掘方法。权 利 要 求 书 2/2 页 3 CN 114925683 A 3

.PDF文档 专利 一种文本数据挖掘方法、装置及电子设备

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本数据挖掘方法、装置及电子设备 第 1 页 专利 一种文本数据挖掘方法、装置及电子设备 第 2 页 专利 一种文本数据挖掘方法、装置及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:09:16上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。