说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210829253.4 (22)申请日 2022.07.15 (71)申请人 东北大学 地址 110819 辽宁省沈阳市和平区文化路3 号巷11号 (72)发明人 陈东明 赵雨萌 赵文吕 聂铭硕  王冬琦  (74)专利代理 机构 沈阳东大知识产权代理有限 公司 21109 专利代理师 李在川 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/74(2022.01) G06V 10/75(2022.01) G06V 10/774(2022.01) (54)发明名称 一种基于多模态数据的重平衡长尾图像数 据分类方法 (57)摘要 本发明属于图像 分类领域, 设计了一种基于 多模态数据的重平衡长尾图像数据分类方法。 该 方法实现图像 ‑文本多模态学习在长尾图像分类 问题上的应用, 旨在使用相对平衡且易于获得、 扩展性丰富的文本数据来监督模型对图像特征 的学习, 通过两个阶段的训练, 提高模型在所有 种类上的分类效果。 第一个阶段使用CLIP大规模 预训练模型中的图像和文本编码器, 通过对比学 习的方法建立两个模态数据的关联性, 增强类内 图像与文本互信息的同时扩大类间差异性。 第二 个阶段冻结图像与文本编码器, 并在图像编码器 后增加了一个多层感知机, 使用类平衡采样策略 和重平衡损失函数训练少量周期, 进一步改善模 型对于尾部类的分类能力。 权利要求书3页 说明书8页 附图1页 CN 115205592 A 2022.10.18 CN 115205592 A 1.一种基于多模态数据的重平衡长尾图像数据分类方法, 其特 征在于, 具体步骤如下: 步骤1: 对图像数据和文本数据进行 预处理; 给定一个mini ‑batch的图像数据I={I1,...,IN}和对应的标签文本数据T={T1,..., TN}, 其中N为batch  size; 将mini ‑batch中属于i类的图像和标签文本两种模态数据表示为 和Ti+, 其中 和Ti+为I和T的子集, 大小为 n; 步骤2: 对步骤1得到的图像模态数据 和标签文本模态数据Ti+进行降维编码; 步骤3: 计算图像模态数据和标签文本模态数据的相似度匹配; 步骤4: 对图像模态嵌入表示和标签描述模态嵌入表示进行对比学习预训练, 来建立图 像模态数据与标签文本模态数据之间种类内部的关联性, 同时扩大类间相似性边界, 作为 第一阶段, 即预训练CL IP模型; 步骤5: 计算 最终第一阶段的损失; 步骤6: 重复执行步骤2 ‑5, 利用梯度下降算法进行反向传播, 更新 图像编码器参数, 实 现第一阶段CL IP模型预训练; 步骤7: 任意给定一个 大小为N的mini ‑batch图像模态数据 种类数量为C 的所有种类标签文本模态数据的句子token为 分别经过图像编码器和文本编码器 计算后得到嵌入表示 和 步骤8: 计算步骤7得到的图像嵌入表示fI和标签描述嵌入表示fT的原始余弦相似度 Sori; 步骤9: 因为图像模态数据 呈长尾分布, 所以使用图像模态数据和文本模态数据对进行 匹配分类仍然不能摆脱 失衡问题, 因此对CLIP模型进行重平衡以改变图像嵌入表示fI对标 签描述嵌入表示fT的敏感程度, 作为第二阶段, 得到 步骤10: 将 和Sori加权求和, 作为 最终预测输出。 2.根据权利要求1所述的一种基于多模态数据的重平衡长尾图像数据分类方法, 其特 征在于, 步骤2具体为: 对于任意 Tj∈Ti+, 将标签文本模态数据套入prompt模板 “a photo of a {class}”变成句子并计算to ken; 将 中的图像与句子token分别送入图像编码器EI和文本编码器ET进行计算, 得到图像 模态嵌入表示fjI和标签描述模态嵌入表示fjT: 其中 D为两个模态Embed ding对齐后的输出维度。 3.根据权利要求1所述的一种基于多模态数据的重平衡长尾图像数据分类方法, 其特 征在于, 步骤3具体为: 根据步骤2得到的两个模态嵌入表示, 通过余弦相似度S判断图像模态数据和标签文本 模态数据是否匹配;权 利 要 求 书 1/3 页 2 CN 115205592 A 2其中, fjI为属于j类图像模态嵌入表示, 为属于k类标签描述模态嵌入表示。 4.根据权利要求1所述的一种基于多模态数据的重平衡长尾图像数据分类方法, 其特 征在于, 步骤4具体为: 步骤4.1: 一个mini ‑batch中正样本个数为n2, 为所有同类图像模态数据与标签文本模 态数据之间的相似度, 负样本个数为N2‑n2, 为i类图像模态数据与其他不同种类标签文 本模 态数据之间的相似度, mi ni‑batch的余弦相似度矩阵 步骤4.2: 对于任一图像模态 嵌入表示和标签描述模态嵌入表示, 将mini ‑batch中与其 种类相同的对应模态数据所处位置下标编码为1, 对不同种类的其所处位置下标设为0, 得 到一个mi ni‑batch的两种模态数据编码矩阵 步骤4.3: 计算第一阶段对比学习的损失函数: 其中τ为对比学习中的温度系数, 设置初始值为0~0.1, 并随着训练过程而更新; Si,j是 属于i类图像模态嵌入表示和属于j 类标签描述模态嵌入表示的余弦相似度; Si,k是属于i类 图像模态嵌入表示和 属于k类标签描述模态嵌入表示的余弦相似度; 步骤4.4: 对CLIP预训练模型中优秀的特征提取 能力进行知识蒸馏, 使用一个蒸馏损失 函数辅助完成知识迁移, 以避免训练过程中对CL IP预训练模型造成过拟合现象: 其中S′为原始CLIP预训练模型冻结后对相同数据计算而得的余弦相似度。 5.根据权利要求1所述的一种基于多模态数据的重平衡长尾图像数据分类方法, 其特 征在于, 步骤5计算第一阶段最终损失具体为: 其中α 为超参数, 用于调节 原始CLIP模型知识蒸馏占模型 预训练的比重 。 6.根据权利要求1所述的一种基于多模态数据的重平衡长尾图像数据分类方法, 其特 征在于, 步骤8原 始余弦相似度具体为: Sori=fI⊙(fT)· 得到 表示第一阶段训练后CLIP模型基于fI和fT, 对每个图像种类的预测 值。 7.根据权利要求1所述的一种基于多模态数据的重平衡长尾图像数据分类方法, 其特 征在于, 步骤9具体为: 步骤9.1: fI经过MLP映射后维度不变, 再与fT计算相似度: Smlp=MLP(fI)⊙(fT)·权 利 要 求 书 2/3 页 3 CN 115205592 A 3

PDF文档 专利 一种基于多模态数据的重平衡长尾图像数据分类方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多模态数据的重平衡长尾图像数据分类方法 第 1 页 专利 一种基于多模态数据的重平衡长尾图像数据分类方法 第 2 页 专利 一种基于多模态数据的重平衡长尾图像数据分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:32:04上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。