专利 一种基于动量更新的视频目标分割方法和系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221084746 3.6 (22)申请日 2022.07.19 (71)申请人山东千面科技有限公司地址 261000 山东省潍坊市综合保税区创新创业中心三层3 008-53室 (72)发明人张善源　卢宪凯　黄泽锋　李姝颖　魏惠贤　 (74)专利代理机构济南光启专利代理事务所 (普通合伙) 37292 专利代理师衣明春 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/74(2022.01) (54)发明名称一种基于动量更新的视频目标分割方法和系统 (57)摘要本发明公开了一种基于动量更新的视频目标分割方法和系统，所述方法包括：获取目标帧图像与参考帧图像，参考帧图像为目标帧之前的所有图像，将目标帧图像放入目标帧编码器，得到相应的输出特征嵌入，同理得到参考帧图像相应的特征嵌入，计算目标帧与参考帧特征嵌入不同像素点间的相似度，构成相似度矩阵，再将其与参考帧的真实图像进行相乘相加操作，重构当前帧，完成对视频目标的分割。该发明提出使用目标帧之前的所有帧来完成对目标帧的分割。且在训练过程中目标帧编码器采用标准的反向传播算法、参考帧编码器使用动量更新方法更新模型的参数，这样既可解决目标消失与再现问题，又不增加训练模型占用的存储空间，从而提高视频目标分割的效果。权利要求书3页说明书9页附图1页 CN 115376040 A 2022.11.22 CN 115376040 A 1.一种基于动量更新的视频目标分割方法，其特征在于，包括以下步骤：步骤1：构造视频目标分割的数据集，对视频进行抽帧预处理，对图像通道进行随机舍弃；步骤2：将目标帧图像放入目标帧编码器中，得到其对应的输出特征嵌入；步骤3：将目标帧之前的所有图像分别放入参考帧编码器中，分别得到它们对应的特征嵌入；步骤4：计算目标帧特征嵌入与参考帧特征嵌入不同像素点之间的相似度，构成相似度矩阵；步骤5：使用相似度矩阵与参考帧的真实图像进行相乘相加操作，完成对目标帧图像的重构；步骤6：使用目标帧真实图像与得到的重构图像计算损失函数；步骤7：使用反向传播算法对目标帧编码器进行参数更新；步骤8：使用动量更新方法对参考帧编码器进行参数更新。 2.如权利要求1所述的一种基于动量更新的视频目标分割方法，其特征在于，所述步骤 1中数据集的构造方法为：视频每五帧抽出一帧，如果帧间隔过小的话会导致目标变化较小，而且会造成不必要的计算，将取出的帧从RGB空间转换到Lab空间，将转换后的图像随机舍弃其中的一个通道，舍弃的一个通道图像是灰度图，我们使用舍弃的这个灰度图当作每一帧的真实图像，原先的lab空间3通道图像放到编码器中进行特征提取并计算相似度矩阵，舍弃的灰度图像当作图像的真实图像用于与关系矩阵相乘，重构当前帧。 3.如权利要求2所述的一种基于动量更新的视频目标分割方法，其特征在于，所述步骤 2中目标帧特征嵌入的获取方法为： Q＝Φ(Iq， θq) 其中： Iq代表目标帧的三通道Lab图像； Φ代表将目标帧图像放入目标帧编码器中进行计算，使用的目标帧编码器是Resnet 18 舍弃最后全连接层之后的网络； θq代表目标帧编码器的模型参数； Q代表得到的目标帧图像的特征嵌入。 4.如权利要求3所述的一种基于动量更新的视频目标分割方法，其特征在于，所述步骤 3中参考帧特征嵌入的获取方法为： R＝Φ(Ir， θr) 其中： Ir代表参考帧的三通道Lab图像； Φ代表将参考帧图像放入参考帧编码器中进行计算，使用的参考帧编码器是Resnet 18 舍弃最后全连接层之后的网络； θr代表参考帧编码器的模型参数； R代表得到的参考帧图像的特征嵌入。 5.如权利要求4所述的一种基于动量更新的视频目标分割方法，其特征在于，所述步骤 4中相似度矩阵的计算方法为：权　利　要　求　书 1/3 页 2 CN 115376040 A 2其中： Qi代表目标帧图像的特征嵌入中第i个像素点的特征向量；代表第k个参考帧图像的特征嵌入中第j个邻居像素点的特征向量； p代表目标帧图像的特征嵌入中第i个像素点在参考帧图像的特征嵌入中的所有邻居像素点； n代表所有的参考帧图像，即目标帧之前的所有图像； Ak代表目标帧图像与第k个参考帧图像不同像素点之间的相似度矩阵；代表目标帧图像中第i个像素点与第k个参考帧图像中第j个邻居像素点之间的相似度。 6.如权利要求5所述的一种基于动量更新的视频目标分割方法，其特征在于，所述步骤 5中目标帧的重构方法为：其中：代表目标帧图像中第i个像素点与第k个参考帧图像中第j个邻居像素点之间的相似度； Vk代表第k个参考帧的真实图像，即舍弃的灰度图像；代表第k个参考帧的真实图像中第j个邻居像素点的颜色值； p代表目标帧图像的特征嵌入中第i个像素点在参考帧图像的特征嵌入中的所有邻居像素点； n代表所有的参考帧图像，即目标帧之前的所有图像；代表目标帧的重构图像；代表目标帧的重构图像中第i个像素点的预测值。 7.如权利要求6所述的一种基于动量更新的视频目标分割方法，其特征在于，所述步骤 6中损失的计算方法为：其中：其中： i代表目标帧图像中的第i个像素点； num代表目标帧图像中像素点的总数；权　利　要　求　书 2/3 页 3 CN 115376040 A 3

专利 一种基于动量更新的视频目标分割方法和系统

专利一种基于动量更新的视频目标分割方法和系统