(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210586125.1
(22)申请日 2022.05.27
(71)申请人 马上消费金融股份有限公司
地址 401120 重庆市渝北区黄山大道中段
52号渝兴广场B2栋4至8楼
(72)发明人 王淳 周迅溢 王洪斌 蒋宁
(74)专利代理 机构 北京国昊天诚知识产权代理
有限公司 1 1315
专利代理师 李潇
(51)Int.Cl.
G06V 10/40(2022.01)
G06V 10/74(2022.01)
G06V 10/764(2022.01)
G06V 10/774(2022.01)
G06K 9/62(2022.01)G06F 16/583(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/82(2022.01)
(54)发明名称
图像特征提取模 型的训练方法、 图像检索方
法及相关 设备
(57)摘要
本申请实施例提供了一种图像特征提取模
型的训练方法、 图像检索方法及相关设备; 其中,
图像特征提取模 型的训练方法包括: 获取多个图
像集合; 其中, 同一图像集合内所包括的多个图
像的拍摄场景相同但拍摄视角互不相同; 从多个
图像集合中的每个图像集合中, 分别获取至少两
张图像作为一个训练图像对, 并基于获取到的训
练图像对构建训练样本集; 将训练样本集输入至
图像特征提取模 型进行训练处理, 得到训练完成
的图像特征提取模型。 通过本申请实施例, 可 以
提升检索拍摄 视角不同的相似图像的准确性。
权利要求书3页 说明书20页 附图8页
CN 115131570 A
2022.09.30
CN 115131570 A
1.一种图像特 征提取模型的训练方法, 其特 征在于, 包括:
获取多个图像集合; 其中, 同一图像集合内所包括的多个图像的拍摄场景相同但拍摄
视角互不相同;
从所述多个图像集合中的每个图像集合中, 分别获取至少两张图像作为一个训练图像
对, 并基于获取到的训练图像对构建训练样本集;
将所述训练样本集输入至图像特征提取模型进行训练处理, 得到训练完成的图像特征
提取模型。
2.根据权利要求1所述的方法, 其特征在于, 所述基于获取到的训练图像对构建训练样
本集, 包括:
分别对每 个训练样本对进行 联合倍增处理, 得到多个联合 倍增图像;
将所述多个联合 倍增图像组成所述训练样本集。
3.根据权利要求1所述的方法, 其特征在于, 所述多个图像集合包括至少两个场景视频
中每个场景视频对应的图像集 合, 所述获取多个图像集 合, 包括:
获取至少两个场景的场景视频;
确定每个场景视频对应的相机位姿信息;
基于所述每个场景视频对应的相机位姿信息将所述每个场景视频包括的多帧图像进
行划分, 得到所述每 个场景视频对应的图像集 合。
4.根据权利要求3所述的方法, 其特征在于, 所述每个场景视频对应的相机位姿信 息包
括所述每个场景视频包括的多帧图像中每帧图像对应的相机位姿, 所述每个场景视频包括
的所述多帧图像包括N个关键帧图像和M个非关键帧图像, 所述每个场景视频对应的相机位
姿包括N个关键帧图像对应的N个关键相 机位姿和M个非关键帧图像对应的M个非关键相 机
位姿; N和M均为正整数; 所述每个场景视频对应的相机位姿信息还包括每个关键相机位姿
和M 个非关键相机位姿之间的相对姿态;
所述至少两个场景视频包括目标场景视频; 所述基于所述每个场景视频对应的相机位
姿信息将所述每个场景视频包括的多帧图像进 行划分, 得到所述每个场景视频对应的图像
集合, 包括:
基于所述目标场景视频对应的相机位姿信息中N个关键相机位姿, 确定所述目标场景
视频对应的关键相 机位姿共视图; 所述关键相 机位姿共视图用于记录N个关键相 机位姿之
间的共视关系;
根据所述目标场景视频对应的关键相机位姿共视图以及每个关键相机位姿和M个非关
键相机位姿之间的相对姿态, 确定所述目标场景视频对应的图像集 合。
5.根据权利要求4所述的方法, 其特征在于, 所述根据所述目标场景视频对应的关键相
机位姿共视图以及每个关键相 机位姿和M个非关键相 机位姿之间的相对姿态, 确定目标场
景视频对应的图像集 合, 包括:
基于所述关键相机位姿共视图, 从N个关键相机位姿中选取共视关系满足共视条件的P
个关键相机位姿, 并将选取出的P 个关键相机位姿对应的P个关键帧图像合并为一个目标场
景视频对应的图像集合, 以及, 从所述P 个关键相机位姿中选取任一个 关键相机位姿作为所
述目标场景视频对应的图像集 合的代表关键相机位姿; P为小于等于N的正整数;
依次遍历N ‑P+1个关键相机位姿, 基于每个关键相机位姿和M个非关键相机位姿之间的权 利 要 求 书 1/3 页
2
CN 115131570 A
2相对姿态, 确定与当前遍历的关键相机位姿之间共视关系满足共视条件的非关键相机位
姿, 并将当前遍历的关键相机位姿对应的关键帧图像和确定出的非关键相机位姿对应的非
关键帧图像组成一个目标场景视频对应的图像集 合。
6.根据权利要求4所述的方法, 其特征在于, 所述基于所述目标场景视频对应的相机位
姿信息中N个关键相机位姿, 确定所述目标场景视频对应的关键相机位姿共视图, 包括:
判断所述N个关键相机位姿中相邻的两个关键相机位姿之间是否存在共视关系, 得到
判断结果;
根据所述相邻的两个关键相机位姿对应的所述判断结果, 确定所述目标场景视频对应
的关键相机位姿共视图。
7.根据权利要求6所述的方法, 其特征在于, 所述判断所述N个关键相机位姿中相邻的
两个关键相机位姿之间是否存在共视关系, 包括如下 方式中任意一种或多种:
依次判断所述N个关键相机位姿中相邻的两个关键相机位姿之间是否存在预设数量的
匹配点;
依次判断所述N个关键相机位姿中相邻的两个关键相机位姿中对应的两个相机的相机
坐标是否接近;
依次判断所述N个关键相机位姿中相邻的两个关键相机位姿中对应的两个相机的相机
朝向是否 接近。
8.根据权利要求1所述的方法, 其特征在于, 所述将所述训练样本集输入至图像特征提
取模型进行训练 处理, 得到训练完成的图像特 征提取模型, 包括:
循环执行如下训练操作, 直至图像特征提取模型满足预设 收敛条件时终止循环执行所
述指定操作, 并将满足预设收敛条件时对应的图像特征提取模型确定为训练完成的图像特
征提取模型;
一次训练操作, 包括:
确定待训练的图像特 征提取模型;
从所述训练样本集中取出未被选取的若干个训练图像对, 并依次将所述若干个训练图
像对中的第一图像输入所述待训练的图像特征提取模型的在线网络, 以及依次将所述若干
个训练图像对中的第二图像输入所述待训练的图像特 征提取模型的目标网络;
获取所述在线网络 输出的预测特 征向量和所述目标网络 输出的投影特 征向量;
根据所述预测特征向量和所述投影特征向量确定所述图像特征提取模型的均方误差
损失函数;
基于所述均 方误差损失函数对所述图像特征提取模型的模型参数调 整, 得到模型参数
调整后的图像特征提取模型, 并将所述模型参数调整后的图像特征提取模 型确定为待训练
的图像特 征提取模型。
9.根据权利要求8所述的方法, 其特征在于, 所述在线网络包括第一编码网络模型、 第
一投影网络模型和预测网络模型; 所述目标网络包括第二编码网络模型和 第二投影网络模
型; 其中, 所述第一编码网络模型和所述第二编码网络模型的网络结构相同, 模型参数不
同; 所述第一投影网络模型和所述第二投影网络模型的网络结构相同, 模型参数不同。
10.一种图像 检索方法, 其特 征在于, 包括:
确定待检索图像;权 利 要 求 书 2/3 页
3
CN 115131570 A
3
专利 图像特征提取模型的训练方法、图像检索方法及相关设备
文档预览
中文文档
32 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共32页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:49上传分享