(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210825399.1
(22)申请日 2022.07.14
(71)申请人 扬州大学
地址 225009 江苏省扬州市大 学南路88号
(72)发明人 徐晓华 李好 何萍
(74)专利代理 机构 南京苏高专利商标事务所
(普通合伙) 32204
专利代理师 孟红梅
(51)Int.Cl.
G06V 10/764(2022.01)
G06V 10/74(2022.01)
G06N 3/08(2006.01)
(54)发明名称
基于标签传播对比半监督学习的图像分类
方法与系统
(57)摘要
本发明公开了一种基于标签传播对比半监
督学习的图像 分类方法与系统, 本发 明首先为图
像数据学习有意义的自监督对比学习的潜在特
征。 其次采用标签传播算法在无监督特征上传播
已知标签, 以自动方式有效地标记整个图像数据
集。 然后使用相似对齐方法选择匹配图像样本并
构成可靠图像样本数据集。 最后在匹配可靠图像
样本数据集上训练半监督网络模 型。 在不匹配的
图像样本进行无监督对比学习提取特征预测标
签进行分类。 本发明可在极低的监督设置下提高
半监督图像分类的性能, 可解决图像数据在进行
图像分类时因为图像数据分布不平衡导致数据
在标记时不匹配引起的模型性能严重下 降的问
题, 提高图像数据分类的准确性, 同时有效减少
人工注释的工作。
权利要求书3页 说明书9页 附图1页
CN 115410026 A
2022.11.29
CN 115410026 A
1.一种基于标签传播对比半监 督学习的图像分类方法, 其特 征在于, 包括如下步骤:
(1)将原始的图像数据集进行部分标记, 其中标记图像数量少于未标记图像, 并对图像
数据集进行 预处理;
(2)构建包括对比学习模型和标签传播模型的半监督图像分类框架, 通过对比学习拉
近未标记图像数据和标记图像数据之 间相似特征的距离; 所述对比学习模 型最大化正样本
对的相似性, 同时最小化负样本对的相似性, 通过实例混合的对比损失来优化对比学习模
型的权重参数;
(3)使用对比学习得到的图像特征进行标签传播, 使用相似对齐的方法, 分别找出和标
记图像数据匹配以及和标记图像数据不匹配的标签; 对于匹配的标签, 经传播的标签使用
交叉熵损失值大于余弦相似度分布值的图像样本构建一个可靠的图像数据集; 对于不匹配
的标签, 采用无监 督对比学习的方法去提取图像的特 征, 预测出其标签和类别;
(4)使用可靠图像数据集和标记数据来训练半监督网络模型, 通过地面真实标签和预
测标签的交叉熵构成监督损失, 未标记数据的预测构成交叉熵无监督损失, 使用监督损失
和无监督损失构成半监督网络模型的总损失, 通过反向传播算法优化半监督网络模型的权
重参数;
(5)使用半监 督网络模型对测试图像数据进行分类, 获得分类结果。
2.根据权利要求1所述的基于标签传播对比半监督学习的图像分类方法, 其特征在于,
步骤(2)中的对比学习模 型使用实例混合策略, 用于改进对比特征学习, 首先将对比学习转
化为训练一个分类器, 为一批数据分配一个唯一的虚拟标签, 表明它们在批次中的身份; 然
后在输入空间和虚拟标签空间中混合图像实例, 在训练期间提供 更多的增强数据。
3.根据权利要求2所述的基于标签传播对比半监督学习的图像分类方法, 其特征在于,
所述实例混合策 略是一种用于对比学习的数据驱动增强策 略, 具体为: 令
为一
批图像数据对, 其中Np为批次大小, 对于每个锚点,
是同一个图像数据的两个不同
程度的增强版本, 对于每个输入图像样本xi,
和
分别称为xi的正样本和负样本; 对比
学习模型f( ·)学习最大化正样本对的相 似性, 同时最小化负样本对的相 似性, f(·)的输
出经过L2归一化,
是批次B中
和
的虚拟标签, 同一图像的虚拟标签值是1, 不
同图像的混合虚拟 标签值为0, 对于具有虚拟标签的一般样本(xi,vi)、 (xj,vj), 实例混合的
方式如下:
mix=( λxi+(1‑λ )xj, λvi+(1‑λ )vj)
其中λ是混合系数。
4.根据权利要求3所述的基于标签传播对比半监督学习的图像分类方法, 其特征在于,
步骤(2)中使用实例混合对比学习的对比损失
为:
每个批次设置一个虚拟标签, 最后算出总的损失, 其中N表示样本总量, τt表示温度参权 利 要 求 书 1/3 页
2
CN 115410026 A
2数, |B|表示批次B 中图像样本数量,
表示两个L2归一化向量内积,
分别表示在两种不同增强版本下进行特征提取, vi,j表示虚拟标签, 并且vi,i=1,
vi,j≠i=0。
5.根据权利要求1所述的基于标签传播对比半监督学习的图像分类方法, 其特征在于,
步骤(2)中标签传播模型使用图扩散算法, 具体为: 设图像数据集D=Dl+Du,
N=Nl+Nu表示样本总量, Nl,Nu分别表示标记图像样本数量、 未
标记图像样本数量, yi是图像样本xi的标签; 标签传播任务是从已标记的图像传播标签, 来
估计未标记图像样本的标签
首先, 使用描述符集合V=(v1,v2,...,vN)定义亲和矩阵, 其
中vi为图的结点, i=1,2,...,N, 根据数据关系构造亲和矩阵:
其中D=diag
(A1N)表示度矩阵, 1N表示全一的N向量, 邻接矩阵Ai,j:
γ是亲和参数, | |·||是二范数, 标签传播扩散的估计过程是:
F=(I‑α S)‑1Y
F是估计矩阵, α ∈[0,1]表示到相邻顶点的概率, Y是N ×C的标签矩阵, C是类的数量; 如
果图像样本xi∈Dl, 并且yi=c, 则Yic=1, c表示类, 最终估计的独热 标签
表示如下:
其中
是矩阵Y中第i行c列的值, 表示第i行c列的估计标签, Fic表示矩阵F中第i行c列
的估计值。
6.根据权利要求1所述的基于标签传播对比半监督学习的图像分类方法, 其特征在于,
步骤(3)中使用相似对齐 的方法中类上的相似性分布Sd按以下方法得到: 给定标记图像样
本集合中c类的列表, 用编码器计算 标记图像样本xi的特征表示zi, c类的特征表示 是通过平
均化得到, 即
其中L是归一化常数值, Nc是c类标记图像样本的数量; 给定一
个具有归一化特征
的无标记图像样本x ′, 我们用C个预定的原型得到它的余弦相似度分
布Sd=(s1,s2,...,sC), 其中sc表示
的相似性, c=1,2,. ..,C, C是类的数量。
7.根据权利要求6所述的基于标签传播对比半监督学习的图像分类方法, 其特征在于,
步骤(3)中构建一个可靠的图像数据集Dr的方法, 具体为: 使用交叉熵损失和余弦相似分布
识别可靠图像样本:
使用softmax归一化
li表示第i个图像
样本xi的交叉熵,
是经过标签传播得到的估计标签,
表示对比学习模型参数; 选择c
类的标记图像和 无标记图像中损失最小的lc, 当lc>sc为类c选择可靠样本集
创建可靠
图像数据集
Nr>Nl, Nr为可靠图像数据集中样本数量, Nl为标记图像样本数
量。权 利 要 求 书 2/3 页
3
CN 115410026 A
3
专利 基于标签传播对比半监督学习的图像分类方法与系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:06上传分享