(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210790159.2
(22)申请日 2022.07.06
(71)申请人 抖音视界 (北京) 有限公司
地址 100041 北京市石景山区实兴大街3 0
号院3号楼 2层B-0035房间
(72)发明人 程亚峰
(74)专利代理 机构 北京中知法苑知识产权代理
有限公司 1 1226
专利代理师 李明
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/216(2020.01)
G06F 40/284(2020.01)
G06K 9/62(2022.01)
(54)发明名称
一种文本处理方法、 装置、 计算机设备及存
储介质
(57)摘要
本公开提供了一种文本处理方法、 装置、 计
算机设备及存储介质, 其中, 该方法包括: 获取第
一文本中的第一关键词对应的第一词向量矩阵、
和第二文本中的第二关键词对应的第二词向量
矩阵; 将第一词向量矩阵和第二词向量矩阵进行
融合处理, 得到融合矩阵, 并对融合矩阵进行奇
异值分解, 得到奇异值矩阵; 基于奇异值矩阵确
定第一文本和第二文本分别在多个向量维度下
的相关度。 本公开实施例可以在对融合矩阵进行
奇异值分解, 得到的奇异值矩阵中包含的各个 奇
异值可以体 现各个矩阵维度下, 第一文本对应的
压缩后的词向量和第二文本对应的压缩后的词
向量的相关度, 进而能够通过多个矩阵维度下的
相关度, 更加准确、 全面地表征第一文本和第二
文本的整体相关性。
权利要求书2页 说明书14页 附图3页
CN 115062626 A
2022.09.16
CN 115062626 A
1.一种文本处 理方法, 其特 征在于, 包括:
获取第一文本中的第一关键词对应的第 一词向量矩阵、 和第 二文本中的第二关键词对
应的第二词向量矩阵; 其中, 所述词向量矩阵包括: 多个关键词分别对应的词向量; 每个所
述词向量包括: 多个向量维度分别对应的向量元 素;
将所述第一词向量矩阵和所述第二词向量矩阵进行融合处理, 得到融合矩阵, 并对所
述融合矩阵进行奇异值分解, 得到奇异值矩阵;
基于所述奇异值矩阵确定所述第一文本和所述第二文本分别在多个所述向量维度下
的相关度。
2.根据权利要求1所述的方法, 其特征在于, 在对所述融合矩阵进行奇异值分解时, 还
得到第一 目标分解矩阵、 第二 目标分解矩阵; 所述第一 目标分解矩阵用于表征所述第一文
本的语义在多个所述向量 维度下分别对应的权重; 所述第二目标分解矩阵用于表征所述第
二文本的语义在多个所述向量维度下分别对应的权 重;
所述方法还 包括:
基于所述第 一词向量矩阵和所述第 一目标分解矩阵, 确定所述第 一文本分别在多个所
述向量维度下 的第一语义关键词, 以及, 基于所述第一词向量矩阵和所述第二目标分解矩
阵, 确定所述第二文本分别在多个所述向量维度下的第二语义关键词。
3.根据权利要求2所述的方法, 其特征在于, 所述基于所述第 一词向量矩阵和所述第 一
目标分解矩阵, 确定所述第一文本分别在多个所述向量维度下的第一语义关键词, 包括:
基于所述第 一词向量矩阵和所述第 一目标分解矩阵, 确定所述第 一词向量矩阵对应的
词向量压缩矩阵;
基于所述词向量压缩矩阵中的各个词向量以及多个候选词汇分别对应的词向量, 确定
各个所述词向量对应的第一语义关键词。
4.根据权利要求3所述的方法, 其特征在于, 所述基于所述第 一词向量矩阵和所述第 一
目标分解矩阵, 确定所述第一词向量矩阵对应的词向量压缩矩阵, 包括:
按照预设数量个奇异值对所述第 一目标分解矩阵进行压缩, 得到所述第 一目标分解矩
阵对应的压缩分解矩阵; 其中, 所述奇异值为所述奇异值矩阵中与目标向量维度对应的矩
阵元素的值;
基于所述压缩分解矩阵和所述第 一词向量矩阵, 确定所述第 一词向量矩阵对应的词向
量压缩矩阵。
5.根据权利要求1所述的方法, 其特征在于, 所述获取文本 中的关键词对应的词向量矩
阵, 包括:
对所述文本进行切词处 理, 得到所述文本中包 含的初始词;
按照预设的筛 选规则对所述初始词进行筛 选处理, 得到所述关键词;
基于各个所述关键词分别在所述文本 中出现的次数、 以及各个所述关键词对应的词向
量, 构建所述文本对应的词向量矩阵;
其中, 所述文本包括第一文本、 所述关键词包括第 一关键词, 所述词向量矩阵包括所述
第一词向量矩阵;
或者,
所述文本包括第二文本、 所述关键词包括第二关键词, 所述词向量矩阵包括所述第二权 利 要 求 书 1/2 页
2
CN 115062626 A
2词向量矩阵。
6.根据权利要求5所述的方法, 其特征在于, 所述基于各个所述关键词分别在所述文本
中出现的次数、 以及各个所述关键词对应的词向量, 构建所述文本对应的词向量矩阵, 包
括:
将所述关键词在所述文本 中出现的总次数作为所述词向量矩阵的行数、 以及将所述向
量维度的数量作为所述词向量矩阵的列数, 对所述关键词分别对应的词向量进行拼接处
理, 得到所述词向量矩阵;
其中, 任一关键词对应的词向量在所述词向量矩阵中出现的次数、 与其在所述文本中
出现的次数相同。
7.根据权利要求1所述的方法, 其特征在于, 所述将所述第 一词向量矩阵和所述第 二次
词向量矩阵进行融合处 理, 得到融合矩阵, 包括:
将所述第一词向量矩阵和所述第二词向量矩阵进行矩阵乘处 理, 得到所述融合矩阵。
8.根据权利要求1 ‑7任一项所述的方法, 其特 征在于, 所述方法还 包括:
在所述第一文本属于目标用户的感兴趣文本、 且所述第 二文本与所述第 一文本在多个
所述向量 维度下分别对应的相关度符合预设条件的情况下, 将所述第二文本作为所述目标
用户的感兴趣文本 。
9.一种文本处 理装置, 其特 征在于, 包括:
获取模块, 用于获取第一文本中的第一关键词对应的第一词向量矩阵、 和第二文本中
的第二关键词对应的第二词向量矩阵; 其中, 所述词向量矩阵包括: 多个关键词分别对应的
词向量; 每 个所述词向量包括: 多个向量维度分别对应的向量元 素;
处理模块, 用于将所述第一词向量矩阵和所述第二词向量矩阵进行融合处理, 得到融
合矩阵, 并对所述融合矩阵进行奇异值分解, 得到奇异值矩阵;
确定模块, 用于基于所述奇异值矩阵确定所述第 一文本和所述第 二文本分别在多个所
述向量维度下的相关度。
10.一种计算机设备, 其特征在于, 包括: 处理器、 存储器和总线, 所述存储器存储有所
述处理器可执行 的机器可读指令, 当计算机设备运行时, 所述处理器与所述存储器之间通
过总线通信, 所述机器可读指 令被所述处理器执行时执行如权利要求 1至8任一项 所述的文
本处理方法的步骤。
11.一种计算机可读存储介质, 其特征在于, 该计算机可读存储介质上存储有计算机程
序, 该计算机程序被处理器运行时执行如权利要求1至8任一项所述的文本处理方法的步
骤。权 利 要 求 书 2/2 页
3
CN 115062626 A
3
专利 一种文本处理方法、装置、计算机设备及存储介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:09:10上传分享