专利 图像特征提取模型的训练方法、图像检索方法及相关设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210586125.1 (22)申请日 2022.05.27 (71)申请人马上消费金融股份有限公司地址 401120 重庆市渝北区黄山大道中段 52号渝兴广场B2栋4至8楼 (72)发明人王淳　周迅溢　王洪斌　蒋宁　 (74)专利代理机构北京国昊天诚知识产权代理有限公司 1 1315 专利代理师李潇 (51)Int.Cl. G06V 10/40(2022.01) G06V 10/74(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06K 9/62(2022.01)G06F 16/583(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/82(2022.01) (54)发明名称图像特征提取模型的训练方法、图像检索方法及相关设备 (57)摘要本申请实施例提供了一种图像特征提取模型的训练方法、图像检索方法及相关设备；其中，图像特征提取模型的训练方法包括：获取多个图像集合；其中，同一图像集合内所包括的多个图像的拍摄场景相同但拍摄视角互不相同；从多个图像集合中的每个图像集合中，分别获取至少两张图像作为一个训练图像对，并基于获取到的训练图像对构建训练样本集；将训练样本集输入至图像特征提取模型进行训练处理，得到训练完成的图像特征提取模型。通过本申请实施例，可以提升检索拍摄视角不同的相似图像的准确性。权利要求书3页说明书20页附图8页 CN 115131570 A 2022.09.30 CN 115131570 A 1.一种图像特征提取模型的训练方法，其特征在于，包括：获取多个图像集合；其中，同一图像集合内所包括的多个图像的拍摄场景相同但拍摄视角互不相同；从所述多个图像集合中的每个图像集合中，分别获取至少两张图像作为一个训练图像对，并基于获取到的训练图像对构建训练样本集；将所述训练样本集输入至图像特征提取模型进行训练处理，得到训练完成的图像特征提取模型。 2.根据权利要求1所述的方法，其特征在于，所述基于获取到的训练图像对构建训练样本集，包括：分别对每个训练样本对进行联合倍增处理，得到多个联合倍增图像；将所述多个联合倍增图像组成所述训练样本集。 3.根据权利要求1所述的方法，其特征在于，所述多个图像集合包括至少两个场景视频中每个场景视频对应的图像集合，所述获取多个图像集合，包括：获取至少两个场景的场景视频；确定每个场景视频对应的相机位姿信息；基于所述每个场景视频对应的相机位姿信息将所述每个场景视频包括的多帧图像进行划分，得到所述每个场景视频对应的图像集合。 4.根据权利要求3所述的方法，其特征在于，所述每个场景视频对应的相机位姿信息包括所述每个场景视频包括的多帧图像中每帧图像对应的相机位姿，所述每个场景视频包括的所述多帧图像包括N个关键帧图像和M个非关键帧图像，所述每个场景视频对应的相机位姿包括N个关键帧图像对应的N个关键相机位姿和M个非关键帧图像对应的M个非关键相机位姿； N和M均为正整数；所述每个场景视频对应的相机位姿信息还包括每个关键相机位姿和M 个非关键相机位姿之间的相对姿态；所述至少两个场景视频包括目标场景视频；所述基于所述每个场景视频对应的相机位姿信息将所述每个场景视频包括的多帧图像进行划分，得到所述每个场景视频对应的图像集合，包括：基于所述目标场景视频对应的相机位姿信息中N个关键相机位姿，确定所述目标场景视频对应的关键相机位姿共视图；所述关键相机位姿共视图用于记录N个关键相机位姿之间的共视关系；根据所述目标场景视频对应的关键相机位姿共视图以及每个关键相机位姿和M个非关键相机位姿之间的相对姿态，确定所述目标场景视频对应的图像集合。 5.根据权利要求4所述的方法，其特征在于，所述根据所述目标场景视频对应的关键相机位姿共视图以及每个关键相机位姿和M个非关键相机位姿之间的相对姿态，确定目标场景视频对应的图像集合，包括：基于所述关键相机位姿共视图，从N个关键相机位姿中选取共视关系满足共视条件的P 个关键相机位姿，并将选取出的P 个关键相机位姿对应的P个关键帧图像合并为一个目标场景视频对应的图像集合，以及，从所述P 个关键相机位姿中选取任一个关键相机位姿作为所述目标场景视频对应的图像集合的代表关键相机位姿； P为小于等于N的正整数；依次遍历N ‑P+1个关键相机位姿，基于每个关键相机位姿和M个非关键相机位姿之间的权　利　要　求　书 1/3 页 2 CN 115131570 A 2相对姿态，确定与当前遍历的关键相机位姿之间共视关系满足共视条件的非关键相机位姿，并将当前遍历的关键相机位姿对应的关键帧图像和确定出的非关键相机位姿对应的非关键帧图像组成一个目标场景视频对应的图像集合。 6.根据权利要求4所述的方法，其特征在于，所述基于所述目标场景视频对应的相机位姿信息中N个关键相机位姿，确定所述目标场景视频对应的关键相机位姿共视图，包括：判断所述N个关键相机位姿中相邻的两个关键相机位姿之间是否存在共视关系，得到判断结果；根据所述相邻的两个关键相机位姿对应的所述判断结果，确定所述目标场景视频对应的关键相机位姿共视图。 7.根据权利要求6所述的方法，其特征在于，所述判断所述N个关键相机位姿中相邻的两个关键相机位姿之间是否存在共视关系，包括如下方式中任意一种或多种：依次判断所述N个关键相机位姿中相邻的两个关键相机位姿之间是否存在预设数量的匹配点；依次判断所述N个关键相机位姿中相邻的两个关键相机位姿中对应的两个相机的相机坐标是否接近；依次判断所述N个关键相机位姿中相邻的两个关键相机位姿中对应的两个相机的相机朝向是否接近。 8.根据权利要求1所述的方法，其特征在于，所述将所述训练样本集输入至图像特征提取模型进行训练处理，得到训练完成的图像特征提取模型，包括：循环执行如下训练操作，直至图像特征提取模型满足预设收敛条件时终止循环执行所述指定操作，并将满足预设收敛条件时对应的图像特征提取模型确定为训练完成的图像特征提取模型；一次训练操作，包括：确定待训练的图像特征提取模型；从所述训练样本集中取出未被选取的若干个训练图像对，并依次将所述若干个训练图像对中的第一图像输入所述待训练的图像特征提取模型的在线网络，以及依次将所述若干个训练图像对中的第二图像输入所述待训练的图像特征提取模型的目标网络；获取所述在线网络输出的预测特征向量和所述目标网络输出的投影特征向量；根据所述预测特征向量和所述投影特征向量确定所述图像特征提取模型的均方误差损失函数；基于所述均方误差损失函数对所述图像特征提取模型的模型参数调整，得到模型参数调整后的图像特征提取模型，并将所述模型参数调整后的图像特征提取模型确定为待训练的图像特征提取模型。 9.根据权利要求8所述的方法，其特征在于，所述在线网络包括第一编码网络模型、第一投影网络模型和预测网络模型；所述目标网络包括第二编码网络模型和第二投影网络模型；其中，所述第一编码网络模型和所述第二编码网络模型的网络结构相同，模型参数不同；所述第一投影网络模型和所述第二投影网络模型的网络结构相同，模型参数不同。 10.一种图像检索方法，其特征在于，包括：确定待检索图像；权　利　要　求　书 2/3 页 3 CN 115131570 A 3

专利 图像特征提取模型的训练方法、图像检索方法及相关设备

专利图像特征提取模型的训练方法、图像检索方法及相关设备