(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210576537.7
(22)申请日 2022.05.25
(71)申请人 天津大学
地址 300072 天津市卫津路9 2号
(72)发明人 王松 阴立强 韩瑞泽 冯伟
万亮 杨嘉临
(74)专利代理 机构 天津市北洋 有限责任专利代
理事务所 12 201
专利代理师 刘国威
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 40/10(2022.01)
G06V 10/40(2022.01)
G06V 10/74(2022.01)
G06V 10/82(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
H04N 5/04(2006.01)
(54)发明名称
基于人体姿态的多相机时间同步方法
(57)摘要
本发明属于计算机视觉领域, 为实现对视频
拍摄时时间差的确定, 且误差小、 操作 简单, 本发
明, 基于人体姿态的多相机时间同步方法, 步骤
如下: 步骤1: 给定拍摄同一空间的两个不同视角
的相机所拍摄的视频V1和V2; 步骤2: 使用HRNet
人体2D姿态估计方法, 得到V1和V2每一帧中人体
的2D姿态P1和P2; 步骤3: 使用预训练的特征嵌入
网络得到P1和P2每一帧的嵌入特征F1和F2; 步骤
4: 根据F1和F2之间的相 似度, 得到匹配矩阵X; 步
骤5: 根据匹配矩阵X, 得到V1和V2中, 帧与帧之间
的匹配向量O; 步骤6: 依据匹配向量O, 确定V1和
V2拍摄时的时间差, 以实现视频同步的目标。 本
发明主要应用于 视频处理、 同步场合。
权利要求书1页 说明书4页 附图1页
CN 115147753 A
2022.10.04
CN 115147753 A
1.一种基于人体姿态的多相机时间同步方法, 其特 征是, 步骤如下:
步骤1: 给定拍摄同一空间的两个不同视角的相机所拍摄的视频, 分别表示 为V1和V2;
步骤2: 使用HRNet人体2D姿态估计方法, 得到V1和V2每一帧中人体的2D姿态, 表示为P1
和P2;
步骤3: 使用预训练的特 征嵌入网络得到P1和P2每一帧的嵌入特 征, 表示为F1和F2;
步骤4: 根据F1和F2之间的相似度, 得到匹配矩阵X;
步骤5: 根据匹配矩阵X, 得到V1和V2中, 帧与帧之间的匹配向量O;
步骤6: 依据匹配向量O, 确定V1和V2拍摄时的时间差, 以实现视频同步的目标。
2.如权利要求1所述的基于人体姿态的多相机时间同步方法, 其特征是, 步骤2具体步
骤: 使用预训练的HRNet提取V1和V2中每一帧的人体姿态, 分别表示为P1∈RM×K×D和P2∈RN
×K×D, 其中M和 N分别为V1和V2的长度, K为检测出来的人体关节点数目, D为每个关节的特征
维度。
3.如权利要求1所述的基于人体姿态的多相机时间 同步方法, 其特征是, 计算匹配矩阵
的目的是 得到V1和V2中帧与帧之间的对应关系, 具体步骤如下:
(1)将上一步操作得到的P1和P2输入到特征嵌入网络, 得到其每一帧的嵌入特征, 表示
为F1∈RM×C和F2∈RN×C, 其中C为每一帧的嵌入特征的维度。 特征嵌入网络根据F1和F2以自监
督的方式进行训练;
(2)计算F1和F2之间的相似度矩阵S∈RM×N, 定义矩阵中的每一个相似度得分为:
其中Sm,n代表F1中第m帧和F2中第n帧的相似度得分;
(3)对上述S进行 行Softmax操作得到匹配矩阵X∈RM×N, 矩阵中每一个值 为:
其中, Xm,n∈[0,1], 值越大代 表F1中第m帧和F2中第n帧的越匹配。
4.如权利要求1所述的基于人体姿态的多相机时间 同步方法, 其特征是, 计算匹配向量
具体步骤如下:
对上一步得到的匹配矩阵的每一行进行A rgmax操作, 进 而得到匹配向量O∈RM×1:
O=[o1,o2,o3,…,oM]
其中O中每一个元 素的索引代 表V1中对应的帧, 值代 表该帧在V2中对应的匹配帧;
确定拍摄时间差:
利用匹配向量确定V1和V2在开始拍摄时的时间差, 具体方法为根据所有匹配帧对之间
的时间差来得到 视频间的时间差:
其中, Of为确定的V1和V2在开始拍摄时的时间差, Med()为取中位数操作。权 利 要 求 书 1/1 页
2
CN 115147753 A
2基于人体姿态的多相机时间同步方 法
技术领域
[0001]本发明属于计算机视觉领域, 涉及一种基于人体姿态的多视角视频同步方法, 可
用于多视角相 机拍摄同一空间, 且空间中有人活动的条件下, 对所拍摄的视频进行时间上
的同步, 准确的找到两个视频拍摄时的时间差。 具体涉及基于人体姿态的多相 机时间同步
方法。
背景技术
[0002](1)人体2D姿态估计方法(参见文献[1]): 人体2D姿态估计作为数据预处理的一个
重要组成部 分, 已经广泛的应用到动作 识别、 人机交互以及虚拟现实等各个领域中。 基于深
度学习进行2D姿态估计的方法可分为两类, 分别是自上而下的方法和自下而上的方法。 前
者先检测出图像中的人体, 然后再进 行姿态估计。 后者先检测出人体关节点, 然后再将 检测
出来的关节点连接得到人体姿态。 目前, 基于深度学习的2D姿态估计方法已具有较高的精
度, 本发明使用姿态估计方法HRNet来获取视频中人体的2D姿态。
[0003](2)多视角相机系统: 随着智能社会的深入发展和移动设备的普及, 生活及生产中
存在着大量多视角相机系统, 其从不同角度拍摄同一空间, 可以提供更全面的信息。 本发明
旨在解决多视角相 机所拍摄视频 的同步问题, 因为多视角视频经过同步后, 才能更好的利
用其信息全面的特点, 进行协同分析, 如协作跟踪、 多视角目标关联、 基于多视角的三维重
建等。
[0004](3)相机位姿(参见文献[2]): 相机位姿是指相机在某一参考坐标系下的三维空间
位置和三维空间姿态。
[0005](4)图卷积神经 网络(参见文献[3]): 图结构在对多个节点关系的建模上具有较大
的优势, 图卷积神经网络将卷积操作应用到图结构的数据上, 具有非常强的特征学习能力
和关系表示能力。 本发明使用针对人体关节点建立图结构的图卷积神经网络ST ‑GCN, 并对
其网络结构进行了一定调整, 以适应用于视频同步, 本文称调整后的ST ‑GCN为特征嵌入网
络。
[0006]对于实际工作需要, 存在一个重要的困难: 未知视频拍摄时相机的位姿, 精确的相
机位姿估计较为复杂, 且在某些特殊场景难以实现, 所以本发明需要在未知相 机位姿的条
件下实施。
发明内容
[0007]为克服现有技术的不足, 本发明旨在针对多视角相机所拍摄的视频, 提出一种有
效的时间同步方法, 依据同一时刻不同视角下人体姿态的一致性, 利用相对简单而有效的
策略, 实现对视频拍摄时时间差的确定, 具有误差小、 操作简单等优点。 为此, 本发明采取的
技术方案是, 基于人体姿态的多相机时间同步方法, 步骤如下:
[0008]步骤1: 给定拍摄同一空间的两个不同视角的相机所拍摄的视频, 分别表示为V1和
V2;说 明 书 1/4 页
3
CN 115147753 A
3
专利 基于人体姿态的多相机时间同步方法
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:53上传分享