说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210736450.1 (22)申请日 2022.06.27 (71)申请人 平安银行股份有限公司 地址 518000 广东省深圳市罗湖区深南 东 路5047号 (72)发明人 瞿学新 翟文博 陈涛  (74)专利代理 机构 深圳市倡创专利代理事务所 (普通合伙) 44660 专利代理师 罗明玉 (51)Int.Cl. G06F 16/332(2019.01) G06F 40/216(2020.01) G06F 40/284(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 一种基于Word2Vec和TFIDF的WIKI知 识库搜 索词分析方法和装置 (57)摘要 本申请提供一种基于Word2Vec和TFIDF的 WIKI知识库搜索词分析方法和装置, 属于人工智 能技术领域, 本申请的方法, 采用Word2Vec对知 识库中的文本构建语义模型, 并结合改进的TF ‑ IDF提取搜索关键词, 首先, 对每个用户的搜索文 本过滤无用记录, 并进行分词和过滤停用词, 其 次, 通过Word2Vec对知 识库中的文本构建语义模 型, 得到搜索词之间的相似性, 最后, 根据改进的 TF‑IDF方法计算得到关键词, 能够有效的从用户 的搜索词 中得到关键词, 从而了解搜索动向, 以 及从中发现知识的缺失, 便 于知识库的管理。 权利要求书2页 说明书7页 附图3页 CN 115080719 A 2022.09.20 CN 115080719 A 1.一种基于Word2Vec和TFIDF的WIKI知识库搜索词分析方法, 其特征在于, 所述WIKI知 识库搜索词分析 方法包括: 对每个用户的搜索文本进行过滤处理, 并通过分词和停用词过滤得到预处理搜索文本 集; 采用Word2Vec构建知识库语义模型, 并采用余弦相似度算法计算搜索词之间的相似 度, 得到相似度矩阵; 采用改进的TF ‑IDF方法, 从搜索词中提取关键词, 得到关键词权 重; 根据所述关键词权 重, 采用词云的方式在前端 展示对应的搜索关键词。 2.根据权利要求1所述的WIKI知识库搜索词分析方法, 其特征在于, 其特征在于, 所述 对每个用户的搜索文本进 行过滤处理, 并通过分词和停用词过滤得到预处理搜索 文本集包 括: 在搜索数据中, 将中文搜索文本转 化为对应的拼音 文本, 得到第一搜索数据集; 在所述第一搜索数据集中, 按照搜索时间升序排序, 针对每个用户的搜索数据满足预 设规则的视为同一次输入并进行合并, 得到第二搜索数据集; 针对所述第 二搜索数据集中同次输入的内容进行过滤, 保留时间上最靠近当前时间节 点的最后一条 数据, 得到过 滤后的第三数据集; 对所述第三数据集中原先为中文的数据进行还原, 并通过分词和 停用词过滤得到预处 理搜索文本集。 3.根据权利要求1所述的WIKI知识库搜索词分析方法, 其特征在于, 其特征在于, 所述 采用Word2Vec构建知识库语义模型, 并采用余弦相似度算法计算搜索词之间的相似度, 得 到相似度矩阵, 具体包括: 对知识库中内容, 通过Word2Vec构 建知识库语义模型, 得到各词的词向量, 并结合余弦 相似度方法, 计算各搜索词之间的相似度, 得到相似度矩阵M 。 4.根据权利要求1所述的WIKI知识库搜索词分析方法, 其特征在于, 其特征在于, 所述 采用改进的TF ‑IDF方法, 从搜索词中提取关键词, 得到关键词权 重包括: 对预处理搜索文本集中各搜索词进行去重处理后得到搜索词集, 并根据改进的TF ‑IDF 方法, 计算各搜索词的词权 重, 搜索词i的词权 重Wi计算公式为: 其中, γ∈(0,1]为惩罚系数, ε∈(0,1]为相似度阈值, count(T)为统计预处理搜索文 本集中总词数, N为预处理搜索 文本集中用户总数, dfi为搜索包含词i的用户数, Mi,j为词j 与i的相似度。 5.一种基于Word2Vec和TFIDF的WIKI知识库搜索词分析装置, 其特征在于, 所述WIKI知 识库搜索词分析装置包括: 预处理模块, 用于对每个用户的搜索文本进行过滤处理, 并通过分词和停用词过滤得 到预处理搜索文本集;权 利 要 求 书 1/2 页 2 CN 115080719 A 2计算模块, 用于采用Word2Vec构建知识库语义模型, 并采用余弦相似度算法计算搜索 词之间的相似度, 得到相似度矩阵; 提取模块, 用于采用改进的TF ‑IDF方法, 从搜索词中提取关键词, 得到关键词权 重; 展示模块, 用于根据所述关键词权 重, 采用词云的方式在前端 展示对应的搜索关键词。 6.根据权利要求5所述的WIKI知识库搜索词分析装置, 其特征在于, 所述预处理模块具 体用于: 在搜索数据中, 将中文搜索文本转 化为对应的拼音 文本, 得到第一搜索数据集; 在所述第一搜索数据集中, 按照搜索时间升序排序, 针对每个用户的搜索数据满足预 设规则的视为同一次输入并进行合并, 得到第二搜索数据集; 针对所述第 二搜索数据集中同次输入的内容进行过滤, 保留时间上最靠近当前时间节 点的最后一条 数据, 得到过 滤后的第三数据集; 对所述第三数据集中原先为中文的数据进行还原, 并通过分词和 停用词过滤得到预处 理搜索文本集。 7.根据权利要求5所述的WIKI知识库搜索词分析装置, 其特征在于, 所述提取模块具体 用于: 对预处理搜索文本集中各搜索词进行去重处理后得到搜索词集, 并根据改进的TF ‑IDF 方法, 计算各搜索词的词权 重, 搜索词i的词权 重Wi计算公式为: 其中, γ∈(0,1]为惩罚系数, ε∈(0,1]为相似度阈值, count(T)为统计预处理搜索文 本集中总词数, N为预处理搜索 文本集中用户总数, dfi为搜索包含词i的用户数, Mi,j为词j 与i的相似度。 8.一种电子设备, 其特 征在于, 包括: 处 理器, 以及与所述处 理器通信连接的存 储器; 所述存储器存储计算机执 行指令; 所述处理器执行所述存储器存储的计算机执行指令, 以实现如权利要求1 ‑5中任一项 所述的方法。 9.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质中存储有计算机 执行指令, 所述计算机执行指令被处理器执行时用于实现如权利要求1 ‑5中任一项所述的 方法。 10.一种计算机程序产品, 其特征在于, 包括计算机程序, 该计算机程序被处理器执行 时实现权利要求1 ‑5中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115080719 A 3

.PDF文档 专利 一种基于Word2Vec和TFIDF的WIKI知识库搜索词分析方法和装置

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于Word2Vec和TFIDF的WIKI知识库搜索词分析方法和装置 第 1 页 专利 一种基于Word2Vec和TFIDF的WIKI知识库搜索词分析方法和装置 第 2 页 专利 一种基于Word2Vec和TFIDF的WIKI知识库搜索词分析方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:07:16上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。