说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210742276.1 (22)申请日 2022.06.28 (71)申请人 西安交通大 学 地址 710049 陕西省西安市咸宁西路28号 (72)发明人 贺丽君 王子晴 李凡  (74)专利代理 机构 西安通大专利代理有限责任 公司 6120 0 专利代理师 闵岳峰 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) (54)发明名称 一种基于多模态互注意融合的渐进式多任 务情感分析方法 (57)摘要 本发明公开了一种基于多模态互注意融合 的渐进式多任务情感分析方法, 该方法基于多模 态数据相融共生的特点, 设计全视角闭环互注意 融合模块, 融合模块级内提出闭环互注意多模态 融合网络, 级间提出全视角分级融合机制, 增强 多模态数据的融合效果; 针对复杂语境下单模态 个性语义缺失、 个性与共性语义无法协同的问 题, 提出渐进式多任务情感分析框架, 框架第一 层多模态融合子任务挖掘多模态共性语义, 单模 态子任务保留单模态个性语义, 然后提出双重决 策融合策略从第二层高层特征和第三层决策两 个维度增强子任务间的交互, 增强多模态情感分 析算法的适应复杂语境的能力, 在CH ‑SIMS数据 集上的测试结果显示了本发明准确率高、 参数量 小的综合优势。 权利要求书3页 说明书8页 附图3页 CN 115034227 A 2022.09.09 CN 115034227 A 1.一种基于多模态互注意融合的渐进式多任务情感分析方法, 其特征在于, 包括以下 步骤: 1)待分析的音频、 文本和视觉三种模态特征输入到数据预处理模块, 去除各单模态特 征中的冗余信息、 进行 数据规范化, 得到三种模态预处 理特征; 2)将三种模态预处理特征输入到渐进式多任务情 感分析框架, 框架的第 一层任务是并 行的三个单模态和一个多模态融合情感分析子任务, 三种模态预 处理特征分别输入到第一 层中的单模态情感分析子任务得到单模态情感决策, 一起输入到多模态融合情感分析子任 务, 由多模态融合模块进行三种模态特征融合得到多模态融合特征, 根据融合特征得到多 模态融合情感决策, 第一层子任务的高层特 征和情感决策作用于双重决策融合模块; 3)双重决策融合模块包括渐进式多任务情感分析框架的第 二层和第 三层子任务, 第二 层子任务在特征维度上对第一层子任务高层特征进行拼接融合, 利用单模态语义差异补充 多模态融合语义, 得到高层特征融合情感决策, 第三层子任务从决策维度上均衡前两层子 任务的情感决策 得到最终的情感分析 结果。 2.根据权利要求1所述的一种基于多模态互注意融合的渐进式多任务情感分析方法, 其特征在于, 步骤1)中, 文本特征的上下文场景对文本语义具有 更为重要的意义, 音 频和视 觉的特征值冗余信息比较多, 根据不同模态的数据特性设计不同的单模态特征处理子网 络, 视觉与音频特征预处理子网络结构相似, 单模态特征分别输入各单模态特征预处理子 网络得到单模态预处 理特征。 3.根据权利要求2所述的一种基于多模态互注意融合的渐进式多任务情感分析方法, 其特征在于, 步骤2)中, 单模态预处理特征分别输入到单模态情感分析子任务得到单模态 情感分析决策, 各单模态情感分析子任务网络设计相 似, 均为由tanh激活的三层全连接网 络层构成, 三种单模态预处理特征一起输入多模态融合情感分析子任务, 首先通过设计的 全视角闭环互注意融合模块, 然后由tanh激活的两层 全连接网络层 进行特征降维得到多模 态融合情感分析决策。 4.根据权利要求2所述的一种基于多模态互注意融合的渐进式多任务情感分析方法, 其特征在于, 为了取得文本上下文词向量的长期依赖关系, 文本特征预处理子网络首先采 用LSTM网络处理文本特征, 接着设计dr opout层使神经元的激活值以一定的概率停止工作, 减小模型对局部特征的依赖, 防止文本特征预处理子网络过拟合, 然后由tanh激活的全连 接层增加文本特征 处理子网络的非线性, 利用BN层 对文本特征数据进 行归一化处理得到文 本预处理特征, 视觉、 音频特征预处理子网络的相似, 以音频预处理子网络的设计为例: 首 先通过时序取均值去除部分信息冗余, 添加dropout层使神经元的激活值以一定的概率停 止工作, 减小模 型对局部特征的依赖, 防止音 频特征预处理子网络过拟合, 然后由tanh激活 的全连接层增加音频特征 处理子网络的非线性, 利用BN层对音 频特征数据进 行归一化处理 得到音频 预处理特征。 5.根据权利要求3所述的一种基于多模态互注意融合的渐进式多任务情感分析方法, 其特征在于, 三种 单模态预处理特征输入到全视角闭环互注意融合模块, 首先经过多模态 特征融合阶段的两级多模态闭环互注 意结构, 每一级包括3个跨模态注意力融合机制, 包括 transV(·)、 transA( ·)、 transT( ·)分别代表视频、 音频、 文本引导的跨模态注意力融合 机制, 3个跨模态注意力融合机制网络结构相似, 三种单模态预处理特征经过融合顺序为权 利 要 求 书 1/3 页 2 CN 115034227 A 2transV1(·)~transA1(·)~transT1(·)的第一级多模态闭环互注意结构, 先通过 transV1(·)进行视频预处理特征Iv和文本预处理特征It的跨模态融合生 成视频‑文本融合 特征 transV1(·)先通过全连接网络将Iv映射成视频查询向量 Q,将It映射成文本关键向 量K和文本值向量V,transV1(·)实现视频文本跨模态融合的具体流程采用式(1) ‑(4)表 示: π =Q·KT                              (1) π'=softmax( π +mask)                          (3) 接着通过transA1(·)利用音频预处理特征约束视 频‑文本融合特征得到音频 ‑视频‑文 本融合特征, 然后将文本预处理特征和音频 ‑视频‑文本融合特征输入到transT1(·)生成 文本‑视频‑音频‑文本的闭环互注意融合特征, 第一级多模态闭环互注意结构采用式(5) ‑ (7)表示: 其中Iv、 Ia、 It分别表示视频、 音频、 文本预处理特征, 分别表示transV (·)、 transA(·)、 transT(·)输出的融合特 征; 级间调整融合顺序, 第二级从不同角度进行特征融合, 第二级的融合顺序设计为 transA2(·)~transV2(·)~transT2(·), 第一级transV1(·)输入是Iv和It, 与之不同的 是transA2(·)的输入是Ia与第一级融合特征 第二级其他跨模态注意机制结构的输入 与第一级类似, 得到第二级融合特 征 接着在多模态自注意阶段, 将第二级融合特征 输入到使用多模态自注意机制 transM(·), 多模态自注意机制与其他跨模态注意力机制网络结构相似, 最终生成多模态 全视角闭环互注意融合特 征ζ, 采用式(8)表示: 6.根据权利要求2所述的一种基于多模态互注意融合的渐进式多任务情感分析方法, 其特征在于, 步骤3)中, 双重决策融合模块包括高层特征融合和决策融合, 高层特征融合将 第一层并行分任务的最后一层 全连接输入的高层情感特征进 行拼接, 将拼接特征输入到由 特征融合网络中得到高层特征融合情感分析决策, 然后, 决策融合设置可自动学习的权重 参数作为前两层子任务情感决策 的权重值, 在 网络的训练过程中, 自动学习最优的权重分 配值均衡各子任务的情感决策得到最终的情感决策结果, 三层任务间层层递进, 共同构成 了渐进式多任务情感分析框架。权 利 要 求 书 2/3 页 3 CN 115034227 A 3

.PDF文档 专利 一种基于多模态互注意融合的渐进式多任务情感分析方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多模态互注意融合的渐进式多任务情感分析方法 第 1 页 专利 一种基于多模态互注意融合的渐进式多任务情感分析方法 第 2 页 专利 一种基于多模态互注意融合的渐进式多任务情感分析方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:07:42上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。