(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210700715.2
(22)申请日 2022.06.20
(71)申请人 科大国创云网科技有限公司
地址 230000 安徽省合肥市高新区文曲路
355号办公楼4层
(72)发明人 李飞 冯影 程磊 周源 王颜颜
(74)专利代理 机构 合肥昊晟德专利代理事务所
(普通合伙) 3415 3
专利代理师 何梓秋
(51)Int.Cl.
G06F 40/216(2020.01)
G06F 40/30(2020.01)
G06F 40/289(2020.01)
G06K 9/62(2022.01)
G06F 40/258(2020.01)G06F 16/35(2019.01)
(54)发明名称
一种客服热点事 件发现方法及系统
(57)摘要
本发明公开了一种客服热点事件发现方法
及系统, 属于自然语言处理技术领域, 包括以下
步骤: S1: 语义表征; S2: 事件发现; S3: 事件类别
预测。 本发 明通过调整字词权重的方式增强语义
表征, 基于 K‑Means算法实现热点事件发现, 优 化
运营商客服领域热点事件发现的准确率, 在运营
商客服领域数据事件聚类发现的实验中, 本方法
明显优于其他已有的层次和密度聚类算法, 准确
率提升了13.83%。
权利要求书2页 说明书7页 附图1页
CN 115034206 A
2022.09.09
CN 115034206 A
1.一种客 服热点事 件发现方法, 其特 征在于, 包括以下步骤:
S1: 语义表征
在通用词库的基础上进行客服领域新词发现, 然后计算客服文本动态句向量, 并对语
义表征进行压缩;
S2: 事件发现
基于客服文本语义表征向量, 采用K ‑Means算法对不同客服场景话务进行 聚类, 生成样
本类别, 在计算类别的热词组合, 形成类别标题, 实现客 服文本事 件发现;
S3: 事件类别预测
构造客服文本事件类型预测训练样本, 训练分类模型, 通过训练好的分类模型预测新
文本类别, 完成事 件入库。
2.根据权利要求1所述的一种客服热点事件发现方法, 其特征在于: 在所述步骤S1中,
进行新词发现的具体过程如下:
S101: 采用W ord2vec方法训练客 服语料, 生成词汇 表作为客服行业基础词库;
S102: 客服领域文本分词后, 若 文本分词后的词不在基础词库中, 进行词频统计;
S103: 设置新词发现阈值, 将超过阈值的词语记录下来作为 候选业务词;
S104: 候选业 务词与通用词库相融合, 建立 运营商客 服领域业务词库。
3.根据权利要求2所述的一种客服热点事件发现方法, 其特征在于: 在所述步骤S1中,
客服文本动态句向量计算过程具体如下:
S201: 对于客服文本序列s, 采用运营商客服领域业务词库将序列s中与客服业务无关
的词汇去除, 只保留运营商客服领域业务词, 因此序列更新为s ′={c1,…,ci,…,cN}, 其中
ci表示序列s ′中的第i个词汇, N表示序列s ′的文本长度;
S202: 基于Word2vec方法获得序列s ′中每一个词汇的初始向量, es′={e1,…,ei,…,
eN};
S203: 在传统TF‑IDF算法的基础上新增词长 权重, 权重信息具体 计算公式为:
其中,
为序列s′中第i个词汇的权重信息, len(ci)为ci的长度, m为词汇ci在该文本
中出现的频 数, T为该文本中的总词汇数, H为总文本数, h为含有词汇ci的文本数;
S204: 应用序列s ′每一个词汇的向量es′={e1,…,ei,…,eN}与其对应词汇权重信息相
结合的方式, 动态计算句向量, 生成文本的句向量空间, 完成客服文本向量化, 具体计算公
式为:
其次, Vs为文本的句向量表示,
为词汇ci的权重信息, ei为词汇ci的词向量。
4.根据权利要求3所述的一种客服热点事件发现方法, 其特征在于: 在所述步骤S1中,
进行语义表征进行压缩的具体过程如下:
S201: 将步骤S204中生成的句向量进行归一 化;
S202: 采用PCA降维的方式将原 始句向量的维度降低到指定维度, 具体 计算公式为:权 利 要 求 书 1/2 页
2
CN 115034206 A
2其中, Vs′为语义表征压缩后的句向量, Xi为原始句向量中中第i维的数值, Xmax、 Xmin分别
为原始句向量中最大值和最小值, F 是PCA降维函数, d是指定维度。
5.根据权利要求4所述的一种客服热点事件发现方法, 其特征在于: 所述步骤S2的具体
过程如下:
S21: 随机 选取K个点作为初始聚类中心;
S22: 根据欧式距离的公式进行计算, 将靠近初始聚类中心的数据, 划分到同一个簇中,
以此迭代;
S23: 依据各簇数据点的均值更新其聚类中心, 直至聚类中心不再改变, 由此将客服文
本划分为K个样本类别, 再分别根据每一类中词汇词频的高低提取K个类别的热词组合, 即
关键词文本, 形成类别标题, 实现客 服文本事 件发现。
6.根据权利要求5所述的一种客服热点事件发现方法, 其特征在于: 所述步骤S3包括以
下步骤:
S31: 通过步骤S23中的K个样本类别、 K个类别的热词组合, 构造客服文本事件类型预测
训练样本, 其中客服文本作为训练数据, 通过客服文本语义表征和客服热点事件发现获得
客服文本数据的K个样本类别作为训练标签;
S32: 采用有监督Fasttext算法训练客服文本事件样本, 获得基于Fasttext算法对文本
事件分类模型 modelf, 对于新的客服文 本序列x通 过训练好的模型 modelf获得序列x属于K个
类型的概 率y1,…,yi,…,yk;
S33: 通过最大值 函数获得序列x的属于可能类别的概 率:
设置预测置信度P, 预测新文本事件类别, 若文本序列x属于可能类别的概率
达到预测
置信度, 则归到K个类别中的概率最大的相似类别中, 否则将不对文本序列x做分类处理, 直
到不做分类处理的文本数量满足指定数额Q, 则所有数据重新聚类, 以此整合后续事件, 完
成事件入库。
7.一种客服热点事件发现系统, 其特征在于, 利用 如权利要求1~6任一项所述的方法
实现客服热点事 件发现及对新文本进行 预测, 包括:
语义表征模块, 用于在通用词库的基础上进行客服领域新词发现, 然后计算客服文本
动态句向量, 并对语义表征进行压缩;
事件发现模块, 用于基于客服文本语义表征向量, 采用K ‑Means算法对不同客服场景话
务进行聚类, 生成样本类别, 在计算类别的热词组合, 形成类别标题, 实现客服文本事件发
现;
事件类别预测模块, 用于构造客服文本事件类型预测训练样本, 训练分类模型, 通过训
练好的分类模型 预测新文本类别, 完成事 件入库;
控制处理模块, 用于向其 他模块发出指令, 完成相关动作;
所述语义表征模块、 事 件发现模块、 事 件类别预测模块均 与控制处 理模块电连接 。权 利 要 求 书 2/2 页
3
CN 115034206 A
3
专利 一种客服热点事件发现方法及系统
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:08:52上传分享