(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210579421.9
(22)申请日 2022.05.25
(71)申请人 杭州电子科技大 学
地址 310018 浙江省杭州市下沙高教园区2
号大街
(72)发明人 朱素果 汪利娟 俞俊 范建平
(74)专利代理 机构 杭州君度专利代理事务所
(特殊普通 合伙) 33240
专利代理师 朱月芬
(51)Int.Cl.
G06V 40/20(2022.01)
G06V 10/40(2022.01)
G06V 10/74(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种基于动态实例交互头的稀疏时序动作
检测方法
(57)摘要
本发明公开了一种基于动态实例交互头的
稀疏时序动作检测方法。 本发明使用基于查询的
方法, 初始化N个提案特征和提案框, 解决了锚框
的复杂性问题。 本发明还引入了基于时序特征金
字塔的动态实例交互头模块, 使用时序特征金字
塔可以对不同尺度的行为都能进行较好的预测,
解决由于每个行为时间跨度不同对实验结果造
成的影响; 动态实例交互头模块仅仅将提案特征
与局部特征进行稀疏交互, 就可以很好的学习有
价值的信息, 大大减少了计算量。 最后, 使用基于
集合预测损失的最佳二分匹配, 可以一对一的进
行标签匹配, 而且最后仅仅输出与初始提案框相
等数量的N个候选框, 在计算性能之前不用使用
非极大值抑制后处理, 可以直接作为预测框进行
输出。
权利要求书3页 说明书7页 附图1页
CN 114998989 A
2022.09.02
CN 114998989 A
1.一种基于动态实例交 互头的稀疏时序动作检测方法, 其特 征在于, 包括如下步骤:
步骤(1)、 数据预处 理, 提取视频 数据的初始时空特 征;
首先, 抽取视频数据的图像帧和光流; 其 次, 基于抽取的图像帧和光流分别提取对应的
特征; 然后, 将提取到的特征在时序维度进 行堆叠, 并使用滑动窗口的方式取出长度相等的
视频片段;
步骤(2)、 构建基于时序特 征金字塔结构的动态实例交 互头网络模型;
所述的基于时序 特征金字塔结构的动态实例交互头网络模型, 包括 时序特征金字塔和
动态实例交 互头;
所述的时序特征金字塔由自下而上以及自上而下两部分构 成, 自下而上的即通过传统
的卷积网络做特征提取, 自上而下 的路径用于特征融合, 在语义丰富的低分辨率特征层构
建更高的分辨率, 并采用横向连接的方式解决由于不断上下采样造成目标偏移的问题; 特
征金字塔得到P1、 P2、 P3、 P4、 P5共五层输出, 为了获取更多的视频信息, 提取金字塔P1 ‑P4四
个特征层用以多尺度地预测行为的关键点;
所述的动态实例交互头接收时间特征金字塔网络生成的多级特征, 然后预测动作实例
的时间段和动作类别; 动态实例交互头的输入包括三个内容: 一是时序金字塔网络输出 的
多尺度特征; 二是可学习提案框; 三是可学习提案特征; 所述的提案框是二维参数, 表示时
间段的标准化中心位置和持续时间; 提案框可以设置为任意大小, 并在初始化期间随机放
置在特征序列上, 避免复杂的候选提案设计; 所述的提案特征为每个提案候选者编码丰富
的实例信息;
步骤(3)、 模型训练;
统一大小的候选框经过全连接层得到固定大小的特征向量, 输出N个无序集合, 每个集
合元素包括分类和定位信息; 利用级联思想, 对输出的候选框进 行调整, 每个级联阶段的输
出信息都利用最佳二分匹配和分类回归损失进行训练, 直至整个网络模型收敛;
步骤(4)、 生成定位检测结果;
根据最佳二分匹配方法, 对模型输出的特征向量进行一对一的标签匹配; 模型训练输
出的候选 框即为最终的预测框 。
2.根据权利要求1所述的一种基于动态实例交互头的稀疏时序动作检测方法, 其特征
在于, 步骤(1)所述的数据预处 理, 提取视频 数据的初始时空特 征, 具体如下:
对于视频数据集V中的每个输入视频vn, 首先以30FPS抽取图像帧, 同时使用TVL ‑1算法
抽取视频的光流; 对抽取好的的图像和光流进行特征提取, 使用基于Kinetics数据集预训
练的I3D模型分别提取图像和光流对应的特征
和
其中N表示
不同视频具有不同的时序长度, 1024则代表每个视频片段经过预训练的I3D模型提取后输
出的特征维度; 为了整合输入视频的外观特征和运动特征, 将图像特征Frgb和光流特征Fflow
在时序维度上进行堆叠, 并获得初始时空特征
再接着, 用滑动窗口在时序长
度N上以5 0%的重叠率进行滑动, 最终得到窗口 的时空特 征
其中T=25 6。
3.根据权利要求2所述的一种基于动态实例交互头的稀疏时序动作检测方法, 其特征
在于, 步骤(2)所述的基于时序特 征金字塔结构的动态实例交 互头网络模型, 具体如下:权 利 要 求 书 1/3 页
2
CN 114998989 A
22‑1、 时序特 征金字塔;
金字塔结构中传统 的自下而上的路径实质为一个下采样卷积神经网络的前馈计算, 采
用图注意力卷积(Graph Attention Network, GAT)加上步长为2的最大池化操作代替原有
的简单一维卷积, 具体公式为:
Fhigh=Maxpooling(GAT(Fcur)) (1)
其中Fhigh表示经过当前图卷积的高层特征图输出, Fcur表示当前层的输入特征; 接着是
自上向下 的路径, 实质上是为了增大带有高层语义信息的特征图分辨率; 对顶部具有大感
受野的特征图做上采样, 步长与最大池化操作相同都为2, 上采样时用线性插值的方式; 上
采样完后与自下向上卷积时具有相同尺寸的特征图进 行横向连接, 融合时采用对应元素相
加的形式, 具体公式可表示 为:
Flow=Interpolate(conv(Fcur)) (2)
其中conv为一个1×3的卷积, 用于减轻 上采用的混叠效果;
2‑2、 动态实例交 互头;
动态实例交互头的输入包括三个内容: 一是时序 金字塔网络输出的多尺度特征层中的
F1、 F2、 F3、 F4, 其中
Fea=2048是
特征维度; 二是可学习提案框; 三是可学习提案特征; 最 终动态实例交互头的输出内容包括
两部分: 一个是类别预测, 另一个是边界预测;
上述提到的可学习的提案框最终被用作候选提案; 这些提案框被初始化为0 ‑1的二维
参数, 表示标准化的中心坐标和 动作持续时间长度; 在训练期间, 将使用反向传播算法更新
提案框的参数; 候选提案的数量大于 视频数据集中所有视频剪辑的最大真值动作实例数;
虽然二维提案框是一个对动作范围简单而明确的表述, 但是只 提供了对动作持续 时间
的粗略定位, 丢失了很多细节性信息; 因此, 引入提案特征, 它是一个高维潜在向量, 将对丰
富的动作实例进行编码; 提案特 征的数量和提案 框的数量相同;
初始化的提案框被映射到0 ‑1的单位时间, 在输入到动态实例交互头之前, 给其初始化
权重, 根据时序金字塔网络输出的尺度大小分别放缩到0 ‑256帧、 0‑128帧、 0‑64帧和0‑32帧
大小; 通过SOI ‑Align模块使用提案框从时序特征金字塔中提取SOI特征Rsoi, 每个SOI特征
都会被用到自己的专用头部, 用于动作分类和定位, 每个头部都以特定的提案特征为条件;
PK进行自注意力生成卷积核参数PKconv, 然后生成的卷积核参数PKconv与Rsoi稀疏交互, 以过
滤掉无效的单 元, 并输出最终的预测特 征Ffin; 具体交互过程如下面公式所示:
Ffin=norm3(drop3(forw(norm2(drop2(inter(Rsoi,norm1(drop1(PK)+PKconv)))+PK)))+
PK)
(3)
其中norm1、 norm2、 norm3为神经网络中的全连接层, drop1、 drop2、 drop3为梯度截断,
forw是前馈神经网络, 具体内容如公式所示:
forw(x)= Linear2(relu(drop(L inear1(x)))) (4)
Linear1、 Linear2为全连接网络, relu为激活函数; 公式(3)中的稀疏 交互部分可表示为
如下公式:
inter(x,y)=relu(n orm(bmm(x,Linear(y)))) (5)
bmm为对输入的两个参数进行矩阵乘法; 因此, 交互过程可以视为SOI特征通过两个一权 利 要 求 书 2/3 页
3
CN 114998989 A
3
专利 一种基于动态实例交互头的稀疏时序动作检测方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:53上传分享