(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210577374.4
(22)申请日 2022.05.25
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518057 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 杜泽峰 张海松
(74)专利代理 机构 深圳市深佳知识产权代理事
务所(普通 合伙) 44285
专利代理师 林志鹏
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/30(2020.01)
G06F 40/284(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种文本分析方法及相关装置
(57)摘要
本申请实施例公开了一种人工智能领域的
文本分析方法及相关装置, 其中该方法包括: 对
目标文本进行语义分析处理, 得到目标文本对应
的依赖树, 该依赖树中节点之间的位置关系用于
表征对应的文本单元之间的语义 关联关系; 根据
该依赖树、 以及目标向量组合对涉及的文本单
元, 确定该目标向量组合对的语义距离特征, 该
目标向量组合对包括方面向量组合和观点向量
组合, 该语义距离特征用于表征该方面向量组合
和该观点向量组合各自涉及的文本单元之间的
语义相关性; 根据方面向量组合和观 点向量组合
以及语义距离特征, 确定目标向量组合对的情感
极性。 该方法能够提高从评论文本中抽取出的情
感极性的准确度。
权利要求书3页 说明书20页 附图5页
CN 115129868 A
2022.09.30
CN 115129868 A
1.一种文本分析 方法, 其特 征在于, 所述方法包括:
对目标文本进行语义分析处理, 得到所述目标文本对应的依赖树; 所述依赖树中包括
所述目标文本中各个文本单元各自对应的节点, 所述依赖树中节点之 间的位置 关系用于表
征对应的文本单 元之间的语义关联关系;
根据所述依赖树、 以及目标向量组合对涉及的文本单元, 确定所述目标向量组合对的
语义距离特征; 所述 目标向量组合对包括方面向量组合和观点向量组合, 所述方面向量组
合和所述观点向量组合是基于所述目标文本中至少一个文本单元的嵌入向量生成的; 所述
语义距离特征用于表征所述方面向量组合和所述观点向量组合各自涉及的文本单元之间
的语义相关性;
根据所述方面向量组合和所述观点向量组合、 以及所述语义距离特征, 确定所述目标
向量组合对的情感极性。
2.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括:
根据所述方面向量组合和所述观点向量组合、 以及所述语义距离特征, 确定相关性检
测结果;
若所述相关性检测结果表征所述方面向量组合和所述观点向量组合相关, 则执行所述
根据所述方面向量组合和所述观点向量组合、 以及所述语义距离特征, 确定所述 目标向量
组合对的情感极性; 若所述相关性检测结果表征所述方面向量组合和所述观点向量组合无
关, 则丢弃 所述目标向量组合对。
3.根据权利要求1所述的方法, 其特征在于, 所述根据所述依赖树、 以及目标向量组合
对涉及的文本单 元, 确定所述目标向量组合对的语义距离特 征, 包括:
将所述依赖树 转换为对应的无向图;
确定所述无向图中每两个节点之间的最短距离;
根据所述无向图中每两个节点之间的最短距离、 以及所述无向图中每个节点对应的文
本单元, 构建所述 目标文本对应的语义距离映射关系; 所述语义距离映射关系用于表征所
述目标文本中每两个文本单 元之间的语义距离;
根据所述语义距离映射关系、 以及所述方面向量组合和所述观点向量组合各自涉及的
文本单元, 确定所述目标向量组合对的语义距离特 征。
4.根据权利要求3所述的方法, 其特征在于, 所述根据所述语义距离映射关系、 以及所
述方面向量组合和所述观点向量组合各自涉及的文本单元, 确定所述目标向量组合对的语
义距离特 征, 包括:
基于所述方面向量组合涉及的各文本单元和所述观点向量组合涉及的各文本单元, 构
造候选文本单元对; 每个所述候选文本单元对中包括一个所述方面向量组合涉及的文本单
元和一个所述观点向量组合涉及的文本单 元;
针对每个所述候选文本单元对, 在所述语义距离映射关系中查找其包括的两个文本单
元之间的语义距离, 作为所述 候选文本单 元对的语义距离;
在各个所述候选文本单元对各自的语义距离 中确定最短的语义距离, 作为所述目标向
量组合对的语义距离特 征。
5.根据权利要求1所述的方法, 其特征在于, 所述根据所述依赖树、 以及目标向量组合
对涉及的文本单 元, 确定所述目标向量组合对的语义距离特 征, 包括:权 利 要 求 书 1/3 页
2
CN 115129868 A
2将所述依赖树 转换为对应的无向图;
根据所述方面向量组合和所述观点向量组合各自涉及的文本单元在所述无向图中对
应的节点 位置, 确定所述目标向量组合对的语义距离特 征。
6.根据权利要求5所述的方法, 其特征在于, 所述根据所述方面向量组合和所述观点向
量组合各自涉及的文本单元在所述无向图中对应的节点位置, 确定所述目标向量组合对的
语义距离特 征, 包括:
基于所述方面向量组合涉及的各文本单元和所述观点向量组合涉及的各文本单元, 构
造候选文本单元对; 每个所述候选文本单元对中包括一个所述方面向量组合涉及的文本单
元和一个所述观点向量组合涉及的文本单 元;
针对每个所述候选文本单元对, 在所述无向图中确定其包括的两个文本单元各自对应
的节点位置之间的最短距离, 作为所述 候选文本单 元对的语义距离;
在各个所述候选文本单元对各自的语义距离 中确定最短的语义距离, 作为所述目标向
量组合对的语义距离特 征。
7.根据权利要求1所述的方法, 其特征在于, 所述对目标文本进行语义分析处理, 得到
所述目标文本对应的依赖树, 包括:
对所述目标文本进行依存句法分析处理, 确定所述目标文本 中各个文本单元各自对应
的依存关系; 所述依存关系用于表征对应的文本单元是否对应所述依赖树的根节点, 以及
在所述文本单元不对应所述根节点的情况下表征所述文本单元在所述目标文本中关联 的
父文本单 元;
根据所述目标文本 中各个文本单元各自对应的依存关系, 生成所述目标文本对应的依
赖树。
8.根据权利要求1所述的方法, 其特征在于, 所述目标向量组合对是通过以下方式生成
的:
对所述目标文本进行拆分处理, 得到所述目标文本中的各个文本单元; 确定所述目标
文本中各个文本单 元各自的嵌入向量;
基于预设的文本单元组合规则, 根据所述目标文本中各个文本单元各自的嵌入向量,
生成多个文本单 元向量组合;
对所述多个文本单元向量组合分别进行分类处理, 确定属于方面类型的文本单元向量
组合为方面向量组合, 确定属于观点类型的文本单 元向量组合 为观点向量组合;
基于各个方面向量组合和各个观点向量组合, 构造所述目标向量组合对; 每个所述目
标向量组合对中包括 一个方面向量组合和一个观点向量组合。
9.根据权利要求8所述的方法, 其特征在于, 所述基于预设的文本单元组合规则, 根据
所述目标文本中各个文本单 元各自的嵌入向量, 生成多个文本单 元向量组合, 包括:
针对所述目标文本 中的每个文本单元, 根据 所述文本单元组合规则指示的文本单元组
合范围, 确定所述目标文本中与所述文本单 元关联的参 考文本单 元;
针对每个所述参考文本单元, 根据所述文本单元的嵌入向量、 所述目标文本中位于所
述文本单元与所述参考文本单元之 间的文本单元的嵌入向量、 所述参考文本单元的嵌入向
量、 以及所述文本单元与所述参考文本单元在所述 目标文本中的距离, 构建所述参考文本
单元对应的文本单 元向量组合。权 利 要 求 书 2/3 页
3
CN 115129868 A
3
专利 一种文本分析方法及相关装置
文档预览
中文文档
29 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:09:08上传分享