(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210853244.9
(22)申请日 2022.07.20
(71)申请人 北京交通大 学
地址 100044 北京市海淀区西直门外上园
村3号
(72)发明人 王涛 李坤鹏 刘贺 李浥东
郎丛妍
(74)专利代理 机构 北京市商 泰律师事务所
11255
专利代理师 黄晓军
(51)Int.Cl.
G06T 7/246(2017.01)
G06T 7/73(2017.01)
G06V 10/74(2022.01)
G06V 10/774(2022.01)
(54)发明名称
一种基于中心点检测和图匹配的平面目标
跟踪方法
(57)摘要
本发明提供了一种基于中心点检测和图匹
配的平面目标跟踪方法, 该方法包括: 使用中心
定位网络 预测当前帧中跟踪目标的中心点, 并根
据预测的中心点确定初始目标区域; 将模板图像
和所述目标区域建模为一个由两个子图组成的
完整的图, 两个子图分别对应两个区域, 使用 深
度图匹配网络预测模板图像和所述目标区域的
匹配矩阵; 使用RANSAC算法从由匹配矩阵标识的
匹配对中估计目标从模板图像到当前图像的几
何变换, 得到跟踪目标的预测位置。 本发明方法
在缩放、 旋转、 透视变换、 运动模糊、 部分遮挡和
无约束场景下的表现总体上好于以往的方法, 特
别在部分遮挡、 运动模糊和无约束场景下获得了
较大收益。
权利要求书3页 说明书10页 附图4页
CN 115239763 A
2022.10.25
CN 115239763 A
1.一种基于中心点检测 和图匹配的平面目标跟踪方法, 其特 征在于, 包括:
使用中心定位网络预测当前帧中跟踪目标的中心点, 并根据预测的中心点确定初始目
标区域;
将模板图像和所述目标区域建模为一个由两个子图组成的完整的图, 两个子图分别对
应两个区域, 使用深度图匹配网络预测模板图像和所述目标区域的匹配矩阵;
使用RANSAC算法从由匹配矩阵标识的匹配对中估计目标从模板图像到当前图像的几
何变换, 得到跟踪目标在当前帧中的预测位置 。
2.根据权利要求1所述的方法, 其特征在于, 所述的使用中心定位网络预测当前帧中跟
踪目标的中心点之前还 包括对中心定位网络进行训练, 训练过程包括:
步骤一: 获取公开跟踪图片数据集的训练部分, 在数据预处理时, 将模板图像 中比目标
大22倍的区域作为模 板区域, 将搜索图像中比目标大52倍的区域作为搜索区域, 并将 尺寸分
别缩放为128 ×128和320 ×320, 即输入图像的格式分别 为[C1, H1, W1]=[3, 128, 128],[C2,
H2, W2]=[3, 320, 320], 其中C表示 通道, H表示图像的高度, W表示图像的宽度;
步骤二: 采用去除最后的layer4层、 pooling层和FC层的ResNet50作为骨干网络对图像
进行特征提取, 提取的特征维度为 1024, 采用1×1的卷积核对提取的特征进 行降维, 降维后
的特征维度为256, 使用不可学习的正弦余弦编码对特征图中每个位置的元素进行位置编
码;
步骤三: 将两部分特征向量展平并沿空间维度拼接在一起, 得到特征向量
并送进Encoder模块中, 其中d=256, Encoder编码器通过自注意力和
交叉注意力对原有特征进 行增强并捕获它们之 间的对应关系, 获得能够判别目标所在空间
位置的能力, 经过Encoder编码后的搜索区域的特征向量
和查询向量q
∈R1×d再做一次注意力, 将目标在搜索区域中的位置信息解码出来, 具体如公式(1)所示:
解码后的信息为
特征向量 f′x通过维度变换变为
并被送到一
个堆叠的全卷积网络中, 经过全卷积网络, f的通道维度被降为 1, 得到一个中心 点位置预测
的概率图
在网格坐标空间下计算概率图分布的期望值来获得预测的目标中心
点, 具体如公式(2)所示:
步骤四: 采用
作为损失函数进行训练, 具体公式如(3)所示, 其中
和
分别表示预测的目标中心点和真实的目标中心点标签, 采用AdamW作为优化器,
根据损失值优化网络模型的参数:
得到训练好的中心定位网络 。权 利 要 求 书 1/3 页
2
CN 115239763 A
23.根据权利要求1所述的方法, 其特征在于, 所述的使用中心定位网络预测当前帧中跟
踪目标的中心点, 并根据预测的中心点确定初始目标区域, 包括:
在中心定位网络 中输入连续的视频帧, 其中第 一帧为模板帧, 目标所在区域称为模板,
把中心定位网络中ResNet50对模板区域提取的特征进 行存储避免重复计算, 模板区域是指
以模板的中心作为中心 点, 宽和高分别是模板的宽和高2 倍的区域, 把模板在第一帧中的位
置偏移作为初始的运动参数;
跟踪时, 首先用上一帧跟踪到的运动 参数对当前读取的图像作一个逆变换得到重采样
图像, 同时上一时刻跟踪到的位置会在重采样图像中对应一个四边形区域, 以该四边形 的
中心作为中心点, 5倍的模板的宽和高作为大小对重采样图像进 行裁剪、 填充和缩放得到搜
索区域, 把模板区域和搜索区域送到中心定位网络 中得到预测的目标中心点位置(cx, cy),
以(cx, cy)为中心裁 剪出一个大小和模板一样的区域作为定位到的初始目标区域。
4.根据权利要求1所述的方法, 其特征在于, 所述的使用深度图匹配网络预测模板图像
和所述目标区域的匹配矩阵之前还 包括, 对深度图匹配网络进行训练, 训练过程包括:
步骤一: 获取公开图匹配数据集, 数据集包括模板图像(P)、 搜索图像(Q)、 模板图像中
的关键点
及其描述子( νP)、 搜索图像中的关键点
及其描述子( νQ)、 模板图像中的关
键点和搜索图像中关键点的对应关系(M), 在数据预处理时, 将图像的尺寸统一调整为256
×256, 即输入图像的大小为[C, H, W]=[3, 256, 256], C表示通道, H表示图像的高度, W表示
图像的宽度;
步骤二: 根据Delaunay三角剖分算法将模板图像P和搜索图像Q建模为图, 分别表示为
和
其中
表示顶点,
表示边, ν表示顶点的特征, ε表
示边的特征, 根据两个点集之间(
和
)的特征相似度构建交叉边, 将两个子图连接起来
成为一个完整的图
具体地, 对于任意一个
在
中选择top ‑k
个与点v外观最相似的点建边, 其中外观相似性定义 为:
步骤三: 图首 先沿着所有边聚合并更新节点信息, 如公式(4)和(5)所示:
其中, N(v)表示节点v的邻居, MV表示节点信息聚合函数,
和
分别表示节点w和边v
→w在第t次传递时的信息,
表示节点v在(t+1)th传递时的邻居信息, UV表示节点更新函
数,把每个节点相连 的边的信息进行聚合得到邻居信息, 再把邻居信息和原有的节点的信
息进行融合更新, 作为节点的新状态;
更新节点状态后, 图会进行边状态的更新, 同样分为聚合和更新两个步骤, 具体如公式
(6)和(7)所示:
其中,
分别表示边v →w在第t次传递时源节点和目的节点的特征向量, ME表示边权 利 要 求 书 2/3 页
3
CN 115239763 A
3
专利 一种基于中心点检测和图匹配的平面目标跟踪方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:02上传分享