专利 一种基于多模态数据的重平衡长尾图像数据分类方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210829253.4 (22)申请日 2022.07.15 (71)申请人东北大学地址 110819 辽宁省沈阳市和平区文化路3 号巷11号 (72)发明人陈东明　赵雨萌　赵文吕　聂铭硕　王冬琦　 (74)专利代理机构沈阳东大知识产权代理有限公司 21109 专利代理师李在川 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/74(2022.01) G06V 10/75(2022.01) G06V 10/774(2022.01) (54)发明名称一种基于多模态数据的重平衡长尾图像数据分类方法 (57)摘要本发明属于图像分类领域，设计了一种基于多模态数据的重平衡长尾图像数据分类方法。该方法实现图像 ‑文本多模态学习在长尾图像分类问题上的应用，旨在使用相对平衡且易于获得、扩展性丰富的文本数据来监督模型对图像特征的学习，通过两个阶段的训练，提高模型在所有种类上的分类效果。第一个阶段使用CLIP大规模预训练模型中的图像和文本编码器，通过对比学习的方法建立两个模态数据的关联性，增强类内图像与文本互信息的同时扩大类间差异性。第二个阶段冻结图像与文本编码器，并在图像编码器后增加了一个多层感知机，使用类平衡采样策略和重平衡损失函数训练少量周期，进一步改善模型对于尾部类的分类能力。权利要求书3页说明书8页附图1页 CN 115205592 A 2022.10.18 CN 115205592 A 1.一种基于多模态数据的重平衡长尾图像数据分类方法，其特征在于，具体步骤如下：步骤1：对图像数据和文本数据进行预处理；给定一个mini ‑batch的图像数据I＝{I1,...,IN}和对应的标签文本数据T＝{T1,..., TN}，其中N为batch size；将mini ‑batch中属于i类的图像和标签文本两种模态数据表示为和Ti+，其中和Ti+为I和T的子集，大小为 n；步骤2：对步骤1得到的图像模态数据和标签文本模态数据Ti+进行降维编码；步骤3：计算图像模态数据和标签文本模态数据的相似度匹配；步骤4：对图像模态嵌入表示和标签描述模态嵌入表示进行对比学习预训练，来建立图像模态数据与标签文本模态数据之间种类内部的关联性，同时扩大类间相似性边界，作为第一阶段，即预训练CL IP模型；步骤5：计算最终第一阶段的损失；步骤6：重复执行步骤2 ‑5，利用梯度下降算法进行反向传播，更新图像编码器参数，实现第一阶段CL IP模型预训练；步骤7：任意给定一个大小为N的mini ‑batch图像模态数据种类数量为C 的所有种类标签文本模态数据的句子token为分别经过图像编码器和文本编码器计算后得到嵌入表示和步骤8：计算步骤7得到的图像嵌入表示fI和标签描述嵌入表示fT的原始余弦相似度 Sori；步骤9：因为图像模态数据呈长尾分布，所以使用图像模态数据和文本模态数据对进行匹配分类仍然不能摆脱失衡问题，因此对CLIP模型进行重平衡以改变图像嵌入表示fI对标签描述嵌入表示fT的敏感程度，作为第二阶段，得到步骤10：将和Sori加权求和，作为最终预测输出。 2.根据权利要求1所述的一种基于多模态数据的重平衡长尾图像数据分类方法，其特征在于，步骤2具体为：对于任意 Tj∈Ti+，将标签文本模态数据套入prompt模板 “a photo of a {class}”变成句子并计算to ken；将中的图像与句子token分别送入图像编码器EI和文本编码器ET进行计算，得到图像模态嵌入表示fjI和标签描述模态嵌入表示fjT：其中 D为两个模态Embed ding对齐后的输出维度。 3.根据权利要求1所述的一种基于多模态数据的重平衡长尾图像数据分类方法，其特征在于，步骤3具体为：根据步骤2得到的两个模态嵌入表示，通过余弦相似度S判断图像模态数据和标签文本模态数据是否匹配；权　利　要　求　书 1/3 页 2 CN 115205592 A 2其中， fjI为属于j类图像模态嵌入表示，为属于k类标签描述模态嵌入表示。 4.根据权利要求1所述的一种基于多模态数据的重平衡长尾图像数据分类方法，其特征在于，步骤4具体为：步骤4.1：一个mini ‑batch中正样本个数为n2，为所有同类图像模态数据与标签文本模态数据之间的相似度，负样本个数为N2‑n2，为i类图像模态数据与其他不同种类标签文本模态数据之间的相似度， mi ni‑batch的余弦相似度矩阵步骤4.2：对于任一图像模态嵌入表示和标签描述模态嵌入表示，将mini ‑batch中与其种类相同的对应模态数据所处位置下标编码为1，对不同种类的其所处位置下标设为0，得到一个mi ni‑batch的两种模态数据编码矩阵步骤4.3：计算第一阶段对比学习的损失函数：其中τ为对比学习中的温度系数，设置初始值为0～0.1，并随着训练过程而更新； Si,j是属于i类图像模态嵌入表示和属于j 类标签描述模态嵌入表示的余弦相似度； Si,k是属于i类图像模态嵌入表示和属于k类标签描述模态嵌入表示的余弦相似度；步骤4.4：对CLIP预训练模型中优秀的特征提取能力进行知识蒸馏，使用一个蒸馏损失函数辅助完成知识迁移，以避免训练过程中对CL IP预训练模型造成过拟合现象：其中S′为原始CLIP预训练模型冻结后对相同数据计算而得的余弦相似度。 5.根据权利要求1所述的一种基于多模态数据的重平衡长尾图像数据分类方法，其特征在于，步骤5计算第一阶段最终损失具体为：其中α 为超参数，用于调节原始CLIP模型知识蒸馏占模型预训练的比重。 6.根据权利要求1所述的一种基于多模态数据的重平衡长尾图像数据分类方法，其特征在于，步骤8原始余弦相似度具体为： Sori＝fI⊙(fT)· 得到表示第一阶段训练后CLIP模型基于fI和fT，对每个图像种类的预测值。 7.根据权利要求1所述的一种基于多模态数据的重平衡长尾图像数据分类方法，其特征在于，步骤9具体为：步骤9.1： fI经过MLP映射后维度不变，再与fT计算相似度： Smlp＝MLP(fI)⊙(fT)·权　利　要　求　书 2/3 页 3 CN 115205592 A 3

专利 一种基于多模态数据的重平衡长尾图像数据分类方法

专利一种基于多模态数据的重平衡长尾图像数据分类方法