专利 一种文本处理方法、装置、计算机设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210790159.2 (22)申请日 2022.07.06 (71)申请人抖音视界（北京）有限公司地址 100041 北京市石景山区实兴大街3 0 号院3号楼 2层B-0035房间 (72)发明人程亚峰　 (74)专利代理机构北京中知法苑知识产权代理有限公司 1 1226 专利代理师李明 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/216(2020.01) G06F 40/284(2020.01) G06K 9/62(2022.01) (54)发明名称一种文本处理方法、装置、计算机设备及存储介质 (57)摘要本公开提供了一种文本处理方法、装置、计算机设备及存储介质，其中，该方法包括：获取第一文本中的第一关键词对应的第一词向量矩阵、和第二文本中的第二关键词对应的第二词向量矩阵；将第一词向量矩阵和第二词向量矩阵进行融合处理，得到融合矩阵，并对融合矩阵进行奇异值分解，得到奇异值矩阵；基于奇异值矩阵确定第一文本和第二文本分别在多个向量维度下的相关度。本公开实施例可以在对融合矩阵进行奇异值分解，得到的奇异值矩阵中包含的各个奇异值可以体现各个矩阵维度下，第一文本对应的压缩后的词向量和第二文本对应的压缩后的词向量的相关度，进而能够通过多个矩阵维度下的相关度，更加准确、全面地表征第一文本和第二文本的整体相关性。权利要求书2页说明书14页附图3页 CN 115062626 A 2022.09.16 CN 115062626 A 1.一种文本处理方法，其特征在于，包括：获取第一文本中的第一关键词对应的第一词向量矩阵、和第二文本中的第二关键词对应的第二词向量矩阵；其中，所述词向量矩阵包括：多个关键词分别对应的词向量；每个所述词向量包括：多个向量维度分别对应的向量元素；将所述第一词向量矩阵和所述第二词向量矩阵进行融合处理，得到融合矩阵，并对所述融合矩阵进行奇异值分解，得到奇异值矩阵；基于所述奇异值矩阵确定所述第一文本和所述第二文本分别在多个所述向量维度下的相关度。 2.根据权利要求1所述的方法，其特征在于，在对所述融合矩阵进行奇异值分解时，还得到第一目标分解矩阵、第二目标分解矩阵；所述第一目标分解矩阵用于表征所述第一文本的语义在多个所述向量维度下分别对应的权重；所述第二目标分解矩阵用于表征所述第二文本的语义在多个所述向量维度下分别对应的权重；所述方法还包括：基于所述第一词向量矩阵和所述第一目标分解矩阵，确定所述第一文本分别在多个所述向量维度下的第一语义关键词，以及，基于所述第一词向量矩阵和所述第二目标分解矩阵，确定所述第二文本分别在多个所述向量维度下的第二语义关键词。 3.根据权利要求2所述的方法，其特征在于，所述基于所述第一词向量矩阵和所述第一目标分解矩阵，确定所述第一文本分别在多个所述向量维度下的第一语义关键词，包括：基于所述第一词向量矩阵和所述第一目标分解矩阵，确定所述第一词向量矩阵对应的词向量压缩矩阵；基于所述词向量压缩矩阵中的各个词向量以及多个候选词汇分别对应的词向量，确定各个所述词向量对应的第一语义关键词。 4.根据权利要求3所述的方法，其特征在于，所述基于所述第一词向量矩阵和所述第一目标分解矩阵，确定所述第一词向量矩阵对应的词向量压缩矩阵，包括：按照预设数量个奇异值对所述第一目标分解矩阵进行压缩，得到所述第一目标分解矩阵对应的压缩分解矩阵；其中，所述奇异值为所述奇异值矩阵中与目标向量维度对应的矩阵元素的值；基于所述压缩分解矩阵和所述第一词向量矩阵，确定所述第一词向量矩阵对应的词向量压缩矩阵。 5.根据权利要求1所述的方法，其特征在于，所述获取文本中的关键词对应的词向量矩阵，包括：对所述文本进行切词处理，得到所述文本中包含的初始词；按照预设的筛选规则对所述初始词进行筛选处理，得到所述关键词；基于各个所述关键词分别在所述文本中出现的次数、以及各个所述关键词对应的词向量，构建所述文本对应的词向量矩阵；其中，所述文本包括第一文本、所述关键词包括第一关键词，所述词向量矩阵包括所述第一词向量矩阵；或者，所述文本包括第二文本、所述关键词包括第二关键词，所述词向量矩阵包括所述第二权　利　要　求　书 1/2 页 2 CN 115062626 A 2词向量矩阵。 6.根据权利要求5所述的方法，其特征在于，所述基于各个所述关键词分别在所述文本中出现的次数、以及各个所述关键词对应的词向量，构建所述文本对应的词向量矩阵，包括：将所述关键词在所述文本中出现的总次数作为所述词向量矩阵的行数、以及将所述向量维度的数量作为所述词向量矩阵的列数，对所述关键词分别对应的词向量进行拼接处理，得到所述词向量矩阵；其中，任一关键词对应的词向量在所述词向量矩阵中出现的次数、与其在所述文本中出现的次数相同。 7.根据权利要求1所述的方法，其特征在于，所述将所述第一词向量矩阵和所述第二次词向量矩阵进行融合处理，得到融合矩阵，包括：将所述第一词向量矩阵和所述第二词向量矩阵进行矩阵乘处理，得到所述融合矩阵。 8.根据权利要求1 ‑7任一项所述的方法，其特征在于，所述方法还包括：在所述第一文本属于目标用户的感兴趣文本、且所述第二文本与所述第一文本在多个所述向量维度下分别对应的相关度符合预设条件的情况下，将所述第二文本作为所述目标用户的感兴趣文本。 9.一种文本处理装置，其特征在于，包括：获取模块，用于获取第一文本中的第一关键词对应的第一词向量矩阵、和第二文本中的第二关键词对应的第二词向量矩阵；其中，所述词向量矩阵包括：多个关键词分别对应的词向量；每个所述词向量包括：多个向量维度分别对应的向量元素；处理模块，用于将所述第一词向量矩阵和所述第二词向量矩阵进行融合处理，得到融合矩阵，并对所述融合矩阵进行奇异值分解，得到奇异值矩阵；确定模块，用于基于所述奇异值矩阵确定所述第一文本和所述第二文本分别在多个所述向量维度下的相关度。 10.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求 1至8任一项所述的文本处理方法的步骤。 11.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至8任一项所述的文本处理方法的步骤。权　利　要　求　书 2/2 页 3 CN 115062626 A 3

专利 一种文本处理方法、装置、计算机设备及存储介质

专利一种文本处理方法、装置、计算机设备及存储介质