专利 一种基于Word2Vec和TFIDF的WIKI知识库搜索词分析方法和装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210736450.1 (22)申请日 2022.06.27 (71)申请人平安银行股份有限公司地址 518000 广东省深圳市罗湖区深南东路5047号 (72)发明人瞿学新　翟文博　陈涛　 (74)专利代理机构深圳市倡创专利代理事务所 (普通合伙) 44660 专利代理师罗明玉 (51)Int.Cl. G06F 16/332(2019.01) G06F 40/216(2020.01) G06F 40/284(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称一种基于Word2Vec和TFIDF的WIKI知识库搜索词分析方法和装置 (57)摘要本申请提供一种基于Word2Vec和TFIDF的 WIKI知识库搜索词分析方法和装置，属于人工智能技术领域，本申请的方法，采用Word2Vec对知识库中的文本构建语义模型，并结合改进的TF ‑ IDF提取搜索关键词，首先，对每个用户的搜索文本过滤无用记录，并进行分词和过滤停用词，其次，通过Word2Vec对知识库中的文本构建语义模型，得到搜索词之间的相似性，最后，根据改进的 TF‑IDF方法计算得到关键词，能够有效的从用户的搜索词中得到关键词，从而了解搜索动向，以及从中发现知识的缺失，便于知识库的管理。权利要求书2页说明书7页附图3页 CN 115080719 A 2022.09.20 CN 115080719 A 1.一种基于Word2Vec和TFIDF的WIKI知识库搜索词分析方法，其特征在于，所述WIKI知识库搜索词分析方法包括：对每个用户的搜索文本进行过滤处理，并通过分词和停用词过滤得到预处理搜索文本集；采用Word2Vec构建知识库语义模型，并采用余弦相似度算法计算搜索词之间的相似度，得到相似度矩阵；采用改进的TF ‑IDF方法，从搜索词中提取关键词，得到关键词权重；根据所述关键词权重，采用词云的方式在前端展示对应的搜索关键词。 2.根据权利要求1所述的WIKI知识库搜索词分析方法，其特征在于，其特征在于，所述对每个用户的搜索文本进行过滤处理，并通过分词和停用词过滤得到预处理搜索文本集包括：在搜索数据中，将中文搜索文本转化为对应的拼音文本，得到第一搜索数据集；在所述第一搜索数据集中，按照搜索时间升序排序，针对每个用户的搜索数据满足预设规则的视为同一次输入并进行合并，得到第二搜索数据集；针对所述第二搜索数据集中同次输入的内容进行过滤，保留时间上最靠近当前时间节点的最后一条数据，得到过滤后的第三数据集；对所述第三数据集中原先为中文的数据进行还原，并通过分词和停用词过滤得到预处理搜索文本集。 3.根据权利要求1所述的WIKI知识库搜索词分析方法，其特征在于，其特征在于，所述采用Word2Vec构建知识库语义模型，并采用余弦相似度算法计算搜索词之间的相似度，得到相似度矩阵，具体包括：对知识库中内容，通过Word2Vec构建知识库语义模型，得到各词的词向量，并结合余弦相似度方法，计算各搜索词之间的相似度，得到相似度矩阵M 。 4.根据权利要求1所述的WIKI知识库搜索词分析方法，其特征在于，其特征在于，所述采用改进的TF ‑IDF方法，从搜索词中提取关键词，得到关键词权重包括：对预处理搜索文本集中各搜索词进行去重处理后得到搜索词集，并根据改进的TF ‑IDF 方法，计算各搜索词的词权重，搜索词i的词权重Wi计算公式为：其中， γ∈(0,1]为惩罚系数, ε∈(0,1]为相似度阈值， count(T)为统计预处理搜索文本集中总词数， N为预处理搜索文本集中用户总数， dfi为搜索包含词i的用户数， Mi,j为词j 与i的相似度。 5.一种基于Word2Vec和TFIDF的WIKI知识库搜索词分析装置，其特征在于，所述WIKI知识库搜索词分析装置包括：预处理模块，用于对每个用户的搜索文本进行过滤处理，并通过分词和停用词过滤得到预处理搜索文本集；权　利　要　求　书 1/2 页 2 CN 115080719 A 2计算模块，用于采用Word2Vec构建知识库语义模型，并采用余弦相似度算法计算搜索词之间的相似度，得到相似度矩阵；提取模块，用于采用改进的TF ‑IDF方法，从搜索词中提取关键词，得到关键词权重；展示模块，用于根据所述关键词权重，采用词云的方式在前端展示对应的搜索关键词。 6.根据权利要求5所述的WIKI知识库搜索词分析装置，其特征在于，所述预处理模块具体用于：在搜索数据中，将中文搜索文本转化为对应的拼音文本，得到第一搜索数据集；在所述第一搜索数据集中，按照搜索时间升序排序，针对每个用户的搜索数据满足预设规则的视为同一次输入并进行合并，得到第二搜索数据集；针对所述第二搜索数据集中同次输入的内容进行过滤，保留时间上最靠近当前时间节点的最后一条数据，得到过滤后的第三数据集；对所述第三数据集中原先为中文的数据进行还原，并通过分词和停用词过滤得到预处理搜索文本集。 7.根据权利要求5所述的WIKI知识库搜索词分析装置，其特征在于，所述提取模块具体用于：对预处理搜索文本集中各搜索词进行去重处理后得到搜索词集，并根据改进的TF ‑IDF 方法，计算各搜索词的词权重，搜索词i的词权重Wi计算公式为：其中， γ∈(0,1]为惩罚系数, ε∈(0,1]为相似度阈值， count(T)为统计预处理搜索文本集中总词数， N为预处理搜索文本集中用户总数， dfi为搜索包含词i的用户数， Mi,j为词j 与i的相似度。 8.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；所述存储器存储计算机执行指令；所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1 ‑5中任一项所述的方法。 9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1 ‑5中任一项所述的方法。 10.一种计算机程序产品，其特征在于，包括计算机程序，该计算机程序被处理器执行时实现权利要求1 ‑5中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115080719 A 3

专利 一种基于Word2Vec和TFIDF的WIKI知识库搜索词分析方法和装置

专利一种基于Word2Vec和TFIDF的WIKI知识库搜索词分析方法和装置