(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210603032.5
(22)申请日 2022.05.30
(71)申请人 华为技术有限公司
地址 518129 广东省深圳市龙岗区坂田华
为总部办公楼
(72)发明人 朱艺 刘健庄
(74)专利代理 机构 深圳市深佳知识产权代理事
务所(普通 合伙) 44285
专利代理师 聂秀娜
(51)Int.Cl.
G06V 10/26(2022.01)
G06V 10/74(2022.01)
G06V 10/762(2022.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)
(54)发明名称
一种无监督语义分割模型的训练方法及相
关装置
(57)摘要
本申请公开了一种无监督语义分割模型的
训练方法, 应用于人工智能技术领域。 本方案中,
基于图像中的对象所属的类别集合对图像的特
征图聚类, 得到图像中各个对象所对应的图像区
域。 通过在对 图像特征进行聚类的过程中, 基于
图像中的对象所属的类别集合来进行聚类, 能够
在聚类过程中引入语义信息, 提高聚类的准确
性, 从而保证聚类后得到的多个图像区域的分割
准确性。 然后, 通过多模态模型对图像区域和类
别集合的文本进行匹配, 获得各个图像区域对应
的类别, 从而为图像引入含有语义信息的伪标
注。 最后, 基于含有语义信息的伪标注对语义分
割模型进行训练, 能够使 得语义分割模型在训练
过程中学习到语义信息, 提高训练得到的语义分
割模型的精度。
权利要求书5页 说明书29页 附图9页
CN 115063585 A
2022.09.16
CN 115063585 A
1.一种无监 督语义分割模型的训练方法, 其特 征在于, 包括:
获取训练数据集中的第 一图像的特征图, 并根据 所述第一图像的类别集合对所述特征
图进行聚类, 得到所述特征图中的多个特征区域, 其中所述类别集合用于指示所述第一图
像中的多个对象的类别, 所述多个特征区域中的每个特征区域对应于所述类别集合中的一
个类别;
确定所述第一图像中与所述多个特 征区域对应的多个图像区域;
将所述多个图像区域和描述所述类别集合的多个文本输入多模态模型, 得到输出结
果, 所述输出结果用于指示所述多个图像区域中每个图像区域对应的类别, 其中所述多模
态模型用于执 行图像和文本的匹配;
将所述第一图像输入语义分割模型, 得到第一语义分割结果;
根据第一损失函数, 对所述语义分割模型进行训练, 以更新所述语义分割模型, 其中所
述第一损失函数 是基于所述输出 结果和所述第一语义分割结果构建的。
2.根据权利要求1所述的方法, 其特征在于, 所述多模态模型用于提取所述多个图像区
域对应的多个图像特征以及所述多个文本对应的多个文本特征, 并计算所述多个图像特征
中的每个图像特征与所述多个文本特征之 间的相似度, 以得到所述多个图像区域中每个图
像区域对应的类别;
其中, 第一图像区域对应的类别为与第 一图像特征相似度最高的文本特征所对应的类
别, 所述第一图像区域为所述多个图像区域中的任意一个图像区域, 所述第一图像特征为
所述多个图像特 征中与所述第一图像区域对应的图像特 征。
3.根据权利要求1或2所述的方法, 其特征在于, 所述训练数据集包括多个图像和多个
类别标签, 所述多个图像包括所述第一图像, 所述多个类别标签用于指示所述多个图像中
的对象的类别;
所述方法还 包括:
将所述第一图像和所述多个类别标签输入所述多模态模型, 得到第 一图像的特征分别
与所述多个 类别标签中每 个类别标签的特 征之间的多个相似度;
根据所述多个相似度, 确定所述第一图像的类别集合, 其中所述类别集合包括多个目
标类别, 所述多个目标类别的特征与所述第一图像的特征之间的相似度均大于或等于预设
阈值。
4.根据权利要求1 ‑3任意一项所述的方法, 其特 征在于, 所述方法还 包括:
基于所述第一语义分割结果, 获取第一掩膜图像和第二掩膜图像, 所述第一掩膜图像
仅包括所述第一语义分割结果中所指示的目标对象的图像, 所述第二掩膜图像仅包括所述
第一语义分割结果中除所述目标对象以外的图像, 所述目标对象为所述第一语义分割结果
中任意一个类别的对象;
将所述第一掩膜图像、 所述第 二掩膜图像以及所述目标对象对应的类别文本输入所述
多模态模型, 得到所述第一掩膜图像的特征与所述类别文本的特征之间的第一相似度, 以
及所述第一掩膜图像的特 征与所述第二掩膜图像的特 征之间的第二相似度;
所述根据第一损失函数, 对所述语义分割模型进行训练, 包括:
根据所述第一损 失函数和第二损 失函数, 对所述语义分割模型进行训练, 其中所述第
二损失函数 是基于所述第一相似度和所述第二相似度得到的。权 利 要 求 书 1/5 页
2
CN 115063585 A
25.根据权利要求4所述的方法, 其特征在于, 所述第 一相似度与 所述第二损失函数具有
负相关的关系, 所述第二相似度与所述第二损失函数 具有正相关的关系。
6.根据权利要求1 ‑3任意一项所述的方法, 其特 征在于, 所述方法还 包括:
将所述第一图像输入降噪模型, 得到第二语义分割结果, 所述降噪模型的结构与所述
语义分割模型的结构相同, 且所述降噪模型的网络参数与所述语义分割模 型的网络参数不
同;
所述根据第一损失函数, 对所述语义分割模型进行训练, 包括:
根据所述第一损 失函数和第三损 失函数, 对所述语义分割模型进行训练, 所述第三损
失函数是基于所述第一语义分割结果和所述第二语义分割结果得到的。
7.根据权利要求 4或5所述的方法, 其特 征在于, 所述方法还 包括:
将所述第一图像输入降噪模型, 得到第二语义分割结果, 所述降噪模型的结构与所述
语义分割模型的结构相同, 且所述降噪模型的网络参数与所述语义分割模 型的网络参数不
同;
所述根据所述第一损失函数和第二损失函数, 对所述语义分割模型进行训练, 包括:
根据所述第一损 失函数、 所述第二损 失函数和第三损 失函数, 对所述语义分割模型进
行训练, 所述第三损失函数是基于所述第一语义分割结果和所述第二语义分割结果得到
的。
8.根据权利要求6或7所述的方法, 其特征在于, 所述降噪模型的网络参数是基于所述
语义分割模型的网络参数以及所述降噪模型在上一轮迭代训练过程中的网络参数 得到的。
9.一种语义分割方法, 其特 征在于, 包括:
获取待处 理图像;
将所述待处 理图像输入语义分割模型, 得到第一语义分割结果;
其中, 所述语义分割模型是基于第一损 失函数训练得到的, 所述第一损 失函数是基于
输出结果和第二语义分割结果得到的, 所述第二语义分割结果是将训练数据集中的第一图
像输入所述语义分割结果模型后得到的, 所述输出结果是将多个图像区域和描述类别集合
的多个文本输入多模态模型后得到的, 所述输出结果用于指示所述多个图像区域中每个图
像区域对应的类别, 所述多模态模型用于执行图像和文本的匹配, 所述多个图像区域为所
述第一图像中与多个特征区域对应的图像区域, 所述多个特征区域是根据所述第一图像的
所述类别集合对所述第一图像的特征图进 行聚类后得到的, 所述类别集合用于指示所述第
一图像中的多个对象的类别, 所述多个特征区域中的每个特征区域对应于所述类别集合中
的一个类别。
10.根据权利要求9所述的方法, 其特征在于, 所述多模态模型用于提取所述多个图像
区域对应的多个图像特征以及所述多个文本对应的多个文本特征, 并计算所述多个图像特
征中的每个图像特征与所述多个文本特征之间的相似度, 以得到所述多个图像区域中每个
图像区域对应的类别;
其中, 第一图像区域对应的类别为与第 一图像特征相似度最高的文本特征所对应的类
别, 所述第一图像区域为所述多个图像区域中的任意一个图像区域, 所述第一图像特征为
所述多个图像特 征中与所述第一图像区域对应的图像特 征。
11.根据权利要求9或10所述的方法, 其特征在于, 所述训练数据集包括多个图像和多权 利 要 求 书 2/5 页
3
CN 115063585 A
3
专利 一种无监督语义分割模型的训练方法及相关装置
文档预览
中文文档
44 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共44页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:48上传分享