(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210736450.1
(22)申请日 2022.06.27
(71)申请人 平安银行股份有限公司
地址 518000 广东省深圳市罗湖区深南 东
路5047号
(72)发明人 瞿学新 翟文博 陈涛
(74)专利代理 机构 深圳市倡创专利代理事务所
(普通合伙) 44660
专利代理师 罗明玉
(51)Int.Cl.
G06F 16/332(2019.01)
G06F 40/216(2020.01)
G06F 40/284(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种基于Word2Vec和TFIDF的WIKI知 识库搜
索词分析方法和装置
(57)摘要
本申请提供一种基于Word2Vec和TFIDF的
WIKI知识库搜索词分析方法和装置, 属于人工智
能技术领域, 本申请的方法, 采用Word2Vec对知
识库中的文本构建语义模型, 并结合改进的TF ‑
IDF提取搜索关键词, 首先, 对每个用户的搜索文
本过滤无用记录, 并进行分词和过滤停用词, 其
次, 通过Word2Vec对知 识库中的文本构建语义模
型, 得到搜索词之间的相似性, 最后, 根据改进的
TF‑IDF方法计算得到关键词, 能够有效的从用户
的搜索词 中得到关键词, 从而了解搜索动向, 以
及从中发现知识的缺失, 便 于知识库的管理。
权利要求书2页 说明书7页 附图3页
CN 115080719 A
2022.09.20
CN 115080719 A
1.一种基于Word2Vec和TFIDF的WIKI知识库搜索词分析方法, 其特征在于, 所述WIKI知
识库搜索词分析 方法包括:
对每个用户的搜索文本进行过滤处理, 并通过分词和停用词过滤得到预处理搜索文本
集;
采用Word2Vec构建知识库语义模型, 并采用余弦相似度算法计算搜索词之间的相似
度, 得到相似度矩阵;
采用改进的TF ‑IDF方法, 从搜索词中提取关键词, 得到关键词权 重;
根据所述关键词权 重, 采用词云的方式在前端 展示对应的搜索关键词。
2.根据权利要求1所述的WIKI知识库搜索词分析方法, 其特征在于, 其特征在于, 所述
对每个用户的搜索文本进 行过滤处理, 并通过分词和停用词过滤得到预处理搜索 文本集包
括:
在搜索数据中, 将中文搜索文本转 化为对应的拼音 文本, 得到第一搜索数据集;
在所述第一搜索数据集中, 按照搜索时间升序排序, 针对每个用户的搜索数据满足预
设规则的视为同一次输入并进行合并, 得到第二搜索数据集;
针对所述第 二搜索数据集中同次输入的内容进行过滤, 保留时间上最靠近当前时间节
点的最后一条 数据, 得到过 滤后的第三数据集;
对所述第三数据集中原先为中文的数据进行还原, 并通过分词和 停用词过滤得到预处
理搜索文本集。
3.根据权利要求1所述的WIKI知识库搜索词分析方法, 其特征在于, 其特征在于, 所述
采用Word2Vec构建知识库语义模型, 并采用余弦相似度算法计算搜索词之间的相似度, 得
到相似度矩阵, 具体包括:
对知识库中内容, 通过Word2Vec构 建知识库语义模型, 得到各词的词向量, 并结合余弦
相似度方法, 计算各搜索词之间的相似度, 得到相似度矩阵M 。
4.根据权利要求1所述的WIKI知识库搜索词分析方法, 其特征在于, 其特征在于, 所述
采用改进的TF ‑IDF方法, 从搜索词中提取关键词, 得到关键词权 重包括:
对预处理搜索文本集中各搜索词进行去重处理后得到搜索词集, 并根据改进的TF ‑IDF
方法, 计算各搜索词的词权 重, 搜索词i的词权 重Wi计算公式为:
其中, γ∈(0,1]为惩罚系数, ε∈(0,1]为相似度阈值, count(T)为统计预处理搜索文
本集中总词数, N为预处理搜索 文本集中用户总数, dfi为搜索包含词i的用户数, Mi,j为词j
与i的相似度。
5.一种基于Word2Vec和TFIDF的WIKI知识库搜索词分析装置, 其特征在于, 所述WIKI知
识库搜索词分析装置包括:
预处理模块, 用于对每个用户的搜索文本进行过滤处理, 并通过分词和停用词过滤得
到预处理搜索文本集;权 利 要 求 书 1/2 页
2
CN 115080719 A
2计算模块, 用于采用Word2Vec构建知识库语义模型, 并采用余弦相似度算法计算搜索
词之间的相似度, 得到相似度矩阵;
提取模块, 用于采用改进的TF ‑IDF方法, 从搜索词中提取关键词, 得到关键词权 重;
展示模块, 用于根据所述关键词权 重, 采用词云的方式在前端 展示对应的搜索关键词。
6.根据权利要求5所述的WIKI知识库搜索词分析装置, 其特征在于, 所述预处理模块具
体用于:
在搜索数据中, 将中文搜索文本转 化为对应的拼音 文本, 得到第一搜索数据集;
在所述第一搜索数据集中, 按照搜索时间升序排序, 针对每个用户的搜索数据满足预
设规则的视为同一次输入并进行合并, 得到第二搜索数据集;
针对所述第 二搜索数据集中同次输入的内容进行过滤, 保留时间上最靠近当前时间节
点的最后一条 数据, 得到过 滤后的第三数据集;
对所述第三数据集中原先为中文的数据进行还原, 并通过分词和 停用词过滤得到预处
理搜索文本集。
7.根据权利要求5所述的WIKI知识库搜索词分析装置, 其特征在于, 所述提取模块具体
用于:
对预处理搜索文本集中各搜索词进行去重处理后得到搜索词集, 并根据改进的TF ‑IDF
方法, 计算各搜索词的词权 重, 搜索词i的词权 重Wi计算公式为:
其中, γ∈(0,1]为惩罚系数, ε∈(0,1]为相似度阈值, count(T)为统计预处理搜索文
本集中总词数, N为预处理搜索 文本集中用户总数, dfi为搜索包含词i的用户数, Mi,j为词j
与i的相似度。
8.一种电子设备, 其特 征在于, 包括: 处 理器, 以及与所述处 理器通信连接的存 储器;
所述存储器存储计算机执 行指令;
所述处理器执行所述存储器存储的计算机执行指令, 以实现如权利要求1 ‑5中任一项
所述的方法。
9.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质中存储有计算机
执行指令, 所述计算机执行指令被处理器执行时用于实现如权利要求1 ‑5中任一项所述的
方法。
10.一种计算机程序产品, 其特征在于, 包括计算机程序, 该计算机程序被处理器执行
时实现权利要求1 ‑5中任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 115080719 A
3
专利 一种基于Word2Vec和TFIDF的WIKI知识库搜索词分析方法和装置
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:16上传分享