(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210829253.4
(22)申请日 2022.07.15
(71)申请人 东北大学
地址 110819 辽宁省沈阳市和平区文化路3
号巷11号
(72)发明人 陈东明 赵雨萌 赵文吕 聂铭硕
王冬琦
(74)专利代理 机构 沈阳东大知识产权代理有限
公司 21109
专利代理师 李在川
(51)Int.Cl.
G06V 10/764(2022.01)
G06V 10/74(2022.01)
G06V 10/75(2022.01)
G06V 10/774(2022.01)
(54)发明名称
一种基于多模态数据的重平衡长尾图像数
据分类方法
(57)摘要
本发明属于图像 分类领域, 设计了一种基于
多模态数据的重平衡长尾图像数据分类方法。 该
方法实现图像 ‑文本多模态学习在长尾图像分类
问题上的应用, 旨在使用相对平衡且易于获得、
扩展性丰富的文本数据来监督模型对图像特征
的学习, 通过两个阶段的训练, 提高模型在所有
种类上的分类效果。 第一个阶段使用CLIP大规模
预训练模型中的图像和文本编码器, 通过对比学
习的方法建立两个模态数据的关联性, 增强类内
图像与文本互信息的同时扩大类间差异性。 第二
个阶段冻结图像与文本编码器, 并在图像编码器
后增加了一个多层感知机, 使用类平衡采样策略
和重平衡损失函数训练少量周期, 进一步改善模
型对于尾部类的分类能力。
权利要求书3页 说明书8页 附图1页
CN 115205592 A
2022.10.18
CN 115205592 A
1.一种基于多模态数据的重平衡长尾图像数据分类方法, 其特 征在于, 具体步骤如下:
步骤1: 对图像数据和文本数据进行 预处理;
给定一个mini ‑batch的图像数据I={I1,...,IN}和对应的标签文本数据T={T1,...,
TN}, 其中N为batch size; 将mini ‑batch中属于i类的图像和标签文本两种模态数据表示为
和Ti+, 其中
和Ti+为I和T的子集, 大小为 n;
步骤2: 对步骤1得到的图像模态数据
和标签文本模态数据Ti+进行降维编码;
步骤3: 计算图像模态数据和标签文本模态数据的相似度匹配;
步骤4: 对图像模态嵌入表示和标签描述模态嵌入表示进行对比学习预训练, 来建立图
像模态数据与标签文本模态数据之间种类内部的关联性, 同时扩大类间相似性边界, 作为
第一阶段, 即预训练CL IP模型;
步骤5: 计算 最终第一阶段的损失;
步骤6: 重复执行步骤2 ‑5, 利用梯度下降算法进行反向传播, 更新 图像编码器参数, 实
现第一阶段CL IP模型预训练;
步骤7: 任意给定一个 大小为N的mini ‑batch图像模态数据
种类数量为C
的所有种类标签文本模态数据的句子token为
分别经过图像编码器和文本编码器
计算后得到嵌入表示
和
步骤8: 计算步骤7得到的图像嵌入表示fI和标签描述嵌入表示fT的原始余弦相似度
Sori;
步骤9: 因为图像模态数据 呈长尾分布, 所以使用图像模态数据和文本模态数据对进行
匹配分类仍然不能摆脱 失衡问题, 因此对CLIP模型进行重平衡以改变图像嵌入表示fI对标
签描述嵌入表示fT的敏感程度, 作为第二阶段, 得到
步骤10: 将
和Sori加权求和, 作为 最终预测输出。
2.根据权利要求1所述的一种基于多模态数据的重平衡长尾图像数据分类方法, 其特
征在于, 步骤2具体为:
对于任意
Tj∈Ti+, 将标签文本模态数据套入prompt模板 “a photo of a
{class}”变成句子并计算to ken;
将
中的图像与句子token分别送入图像编码器EI和文本编码器ET进行计算, 得到图像
模态嵌入表示fjI和标签描述模态嵌入表示fjT:
其中
D为两个模态Embed ding对齐后的输出维度。
3.根据权利要求1所述的一种基于多模态数据的重平衡长尾图像数据分类方法, 其特
征在于, 步骤3具体为:
根据步骤2得到的两个模态嵌入表示, 通过余弦相似度S判断图像模态数据和标签文本
模态数据是否匹配;权 利 要 求 书 1/3 页
2
CN 115205592 A
2其中, fjI为属于j类图像模态嵌入表示,
为属于k类标签描述模态嵌入表示。
4.根据权利要求1所述的一种基于多模态数据的重平衡长尾图像数据分类方法, 其特
征在于, 步骤4具体为:
步骤4.1: 一个mini ‑batch中正样本个数为n2, 为所有同类图像模态数据与标签文本模
态数据之间的相似度, 负样本个数为N2‑n2, 为i类图像模态数据与其他不同种类标签文 本模
态数据之间的相似度, mi ni‑batch的余弦相似度矩阵
步骤4.2: 对于任一图像模态 嵌入表示和标签描述模态嵌入表示, 将mini ‑batch中与其
种类相同的对应模态数据所处位置下标编码为1, 对不同种类的其所处位置下标设为0, 得
到一个mi ni‑batch的两种模态数据编码矩阵
步骤4.3: 计算第一阶段对比学习的损失函数:
其中τ为对比学习中的温度系数, 设置初始值为0~0.1, 并随着训练过程而更新; Si,j是
属于i类图像模态嵌入表示和属于j 类标签描述模态嵌入表示的余弦相似度; Si,k是属于i类
图像模态嵌入表示和 属于k类标签描述模态嵌入表示的余弦相似度;
步骤4.4: 对CLIP预训练模型中优秀的特征提取 能力进行知识蒸馏, 使用一个蒸馏损失
函数辅助完成知识迁移, 以避免训练过程中对CL IP预训练模型造成过拟合现象:
其中S′为原始CLIP预训练模型冻结后对相同数据计算而得的余弦相似度。
5.根据权利要求1所述的一种基于多模态数据的重平衡长尾图像数据分类方法, 其特
征在于, 步骤5计算第一阶段最终损失具体为:
其中α 为超参数, 用于调节 原始CLIP模型知识蒸馏占模型 预训练的比重 。
6.根据权利要求1所述的一种基于多模态数据的重平衡长尾图像数据分类方法, 其特
征在于, 步骤8原 始余弦相似度具体为:
Sori=fI⊙(fT)·
得到
表示第一阶段训练后CLIP模型基于fI和fT, 对每个图像种类的预测
值。
7.根据权利要求1所述的一种基于多模态数据的重平衡长尾图像数据分类方法, 其特
征在于, 步骤9具体为:
步骤9.1: fI经过MLP映射后维度不变, 再与fT计算相似度:
Smlp=MLP(fI)⊙(fT)·权 利 要 求 书 2/3 页
3
CN 115205592 A
3
专利 一种基于多模态数据的重平衡长尾图像数据分类方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:04上传分享