专利 基于人体姿态的多相机时间同步方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210576537.7 (22)申请日 2022.05.25 (71)申请人天津大学地址 300072 天津市卫津路9 2号 (72)发明人王松　阴立强　韩瑞泽　冯伟　万亮　杨嘉临　 (74)专利代理机构天津市北洋有限责任专利代理事务所 12 201 专利代理师刘国威 (51)Int.Cl. G06V 20/40(2022.01) G06V 40/10(2022.01) G06V 10/40(2022.01) G06V 10/74(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) H04N 5/04(2006.01) (54)发明名称基于人体姿态的多相机时间同步方法 (57)摘要本发明属于计算机视觉领域，为实现对视频拍摄时时间差的确定，且误差小、操作简单，本发明，基于人体姿态的多相机时间同步方法，步骤如下：步骤1：给定拍摄同一空间的两个不同视角的相机所拍摄的视频V1和V2；步骤2：使用HRNet 人体2D姿态估计方法，得到V1和V2每一帧中人体的2D姿态P1和P2；步骤3：使用预训练的特征嵌入网络得到P1和P2每一帧的嵌入特征F1和F2；步骤 4：根据F1和F2之间的相似度，得到匹配矩阵X；步骤5：根据匹配矩阵X，得到V1和V2中，帧与帧之间的匹配向量O；步骤6：依据匹配向量O，确定V1和 V2拍摄时的时间差，以实现视频同步的目标。本发明主要应用于视频处理、同步场合。权利要求书1页说明书4页附图1页 CN 115147753 A 2022.10.04 CN 115147753 A 1.一种基于人体姿态的多相机时间同步方法，其特征是，步骤如下：步骤1：给定拍摄同一空间的两个不同视角的相机所拍摄的视频，分别表示为V1和V2；步骤2：使用HRNet人体2D姿态估计方法，得到V1和V2每一帧中人体的2D姿态，表示为P1 和P2；步骤3：使用预训练的特征嵌入网络得到P1和P2每一帧的嵌入特征，表示为F1和F2；步骤4：根据F1和F2之间的相似度，得到匹配矩阵X；步骤5：根据匹配矩阵X，得到V1和V2中，帧与帧之间的匹配向量O；步骤6：依据匹配向量O，确定V1和V2拍摄时的时间差，以实现视频同步的目标。 2.如权利要求1所述的基于人体姿态的多相机时间同步方法，其特征是，步骤2具体步骤：使用预训练的HRNet提取V1和V2中每一帧的人体姿态，分别表示为P1∈RM×K×D和P2∈RN ×K×D，其中M和 N分别为V1和V2的长度， K为检测出来的人体关节点数目， D为每个关节的特征维度。 3.如权利要求1所述的基于人体姿态的多相机时间同步方法，其特征是，计算匹配矩阵的目的是得到V1和V2中帧与帧之间的对应关系，具体步骤如下： (1)将上一步操作得到的P1和P2输入到特征嵌入网络，得到其每一帧的嵌入特征，表示为F1∈RM×C和F2∈RN×C，其中C为每一帧的嵌入特征的维度。特征嵌入网络根据F1和F2以自监督的方式进行训练； (2)计算F1和F2之间的相似度矩阵S∈RM×N，定义矩阵中的每一个相似度得分为：其中Sm，n代表F1中第m帧和F2中第n帧的相似度得分； (3)对上述S进行行Softmax操作得到匹配矩阵X∈RM×N，矩阵中每一个值为：其中， Xm，n∈[0,1]，值越大代表F1中第m帧和F2中第n帧的越匹配。 4.如权利要求1所述的基于人体姿态的多相机时间同步方法，其特征是，计算匹配向量具体步骤如下：对上一步得到的匹配矩阵的每一行进行A rgmax操作，进而得到匹配向量O∈RM×1： O＝[o1,o2,o3,…,oM] 其中O中每一个元素的索引代表V1中对应的帧，值代表该帧在V2中对应的匹配帧；确定拍摄时间差：利用匹配向量确定V1和V2在开始拍摄时的时间差，具体方法为根据所有匹配帧对之间的时间差来得到视频间的时间差：其中， Of为确定的V1和V2在开始拍摄时的时间差， Med()为取中位数操作。权　利　要　求　书 1/1 页 2 CN 115147753 A 2基于人体姿态的多相机时间同步方法技术领域 [0001]本发明属于计算机视觉领域，涉及一种基于人体姿态的多视角视频同步方法，可用于多视角相机拍摄同一空间，且空间中有人活动的条件下，对所拍摄的视频进行时间上的同步，准确的找到两个视频拍摄时的时间差。具体涉及基于人体姿态的多相机时间同步方法。背景技术 [0002](1)人体2D姿态估计方法(参见文献[1])：人体2D姿态估计作为数据预处理的一个重要组成部分，已经广泛的应用到动作识别、人机交互以及虚拟现实等各个领域中。基于深度学习进行2D姿态估计的方法可分为两类，分别是自上而下的方法和自下而上的方法。前者先检测出图像中的人体，然后再进行姿态估计。后者先检测出人体关节点，然后再将检测出来的关节点连接得到人体姿态。目前，基于深度学习的2D姿态估计方法已具有较高的精度，本发明使用姿态估计方法HRNet来获取视频中人体的2D姿态。 [0003](2)多视角相机系统：随着智能社会的深入发展和移动设备的普及，生活及生产中存在着大量多视角相机系统，其从不同角度拍摄同一空间，可以提供更全面的信息。本发明旨在解决多视角相机所拍摄视频的同步问题，因为多视角视频经过同步后，才能更好的利用其信息全面的特点，进行协同分析，如协作跟踪、多视角目标关联、基于多视角的三维重建等。 [0004](3)相机位姿(参见文献[2])：相机位姿是指相机在某一参考坐标系下的三维空间位置和三维空间姿态。 [0005](4)图卷积神经网络(参见文献[3])：图结构在对多个节点关系的建模上具有较大的优势，图卷积神经网络将卷积操作应用到图结构的数据上，具有非常强的特征学习能力和关系表示能力。本发明使用针对人体关节点建立图结构的图卷积神经网络ST ‑GCN，并对其网络结构进行了一定调整，以适应用于视频同步，本文称调整后的ST ‑GCN为特征嵌入网络。 [0006]对于实际工作需要，存在一个重要的困难：未知视频拍摄时相机的位姿，精确的相机位姿估计较为复杂，且在某些特殊场景难以实现，所以本发明需要在未知相机位姿的条件下实施。发明内容 [0007]为克服现有技术的不足，本发明旨在针对多视角相机所拍摄的视频，提出一种有效的时间同步方法，依据同一时刻不同视角下人体姿态的一致性，利用相对简单而有效的策略，实现对视频拍摄时时间差的确定，具有误差小、操作简单等优点。为此，本发明采取的技术方案是，基于人体姿态的多相机时间同步方法，步骤如下： [0008]步骤1：给定拍摄同一空间的两个不同视角的相机所拍摄的视频，分别表示为V1和 V2；说　明　书 1/4 页 3 CN 115147753 A 3

专利 基于人体姿态的多相机时间同步方法

专利基于人体姿态的多相机时间同步方法