说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210579421.9 (22)申请日 2022.05.25 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 朱素果 汪利娟 俞俊 范建平  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 专利代理师 朱月芬 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/40(2022.01) G06V 10/74(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种基于动态实例交互头的稀疏时序动作 检测方法 (57)摘要 本发明公开了一种基于动态实例交互头的 稀疏时序动作检测方法。 本发明使用基于查询的 方法, 初始化N个提案特征和提案框, 解决了锚框 的复杂性问题。 本发明还引入了基于时序特征金 字塔的动态实例交互头模块, 使用时序特征金字 塔可以对不同尺度的行为都能进行较好的预测, 解决由于每个行为时间跨度不同对实验结果造 成的影响; 动态实例交互头模块仅仅将提案特征 与局部特征进行稀疏交互, 就可以很好的学习有 价值的信息, 大大减少了计算量。 最后, 使用基于 集合预测损失的最佳二分匹配, 可以一对一的进 行标签匹配, 而且最后仅仅输出与初始提案框相 等数量的N个候选框, 在计算性能之前不用使用 非极大值抑制后处理, 可以直接作为预测框进行 输出。 权利要求书3页 说明书7页 附图1页 CN 114998989 A 2022.09.02 CN 114998989 A 1.一种基于动态实例交 互头的稀疏时序动作检测方法, 其特 征在于, 包括如下步骤: 步骤(1)、 数据预处 理, 提取视频 数据的初始时空特 征; 首先, 抽取视频数据的图像帧和光流; 其 次, 基于抽取的图像帧和光流分别提取对应的 特征; 然后, 将提取到的特征在时序维度进 行堆叠, 并使用滑动窗口的方式取出长度相等的 视频片段; 步骤(2)、 构建基于时序特 征金字塔结构的动态实例交 互头网络模型; 所述的基于时序 特征金字塔结构的动态实例交互头网络模型, 包括 时序特征金字塔和 动态实例交 互头; 所述的时序特征金字塔由自下而上以及自上而下两部分构 成, 自下而上的即通过传统 的卷积网络做特征提取, 自上而下 的路径用于特征融合, 在语义丰富的低分辨率特征层构 建更高的分辨率, 并采用横向连接的方式解决由于不断上下采样造成目标偏移的问题; 特 征金字塔得到P1、 P2、 P3、 P4、 P5共五层输出, 为了获取更多的视频信息, 提取金字塔P1 ‑P4四 个特征层用以多尺度地预测行为的关键点; 所述的动态实例交互头接收时间特征金字塔网络生成的多级特征, 然后预测动作实例 的时间段和动作类别; 动态实例交互头的输入包括三个内容: 一是时序金字塔网络输出 的 多尺度特征; 二是可学习提案框; 三是可学习提案特征; 所述的提案框是二维参数, 表示时 间段的标准化中心位置和持续时间; 提案框可以设置为任意大小, 并在初始化期间随机放 置在特征序列上, 避免复杂的候选提案设计; 所述的提案特征为每个提案候选者编码丰富 的实例信息; 步骤(3)、 模型训练; 统一大小的候选框经过全连接层得到固定大小的特征向量, 输出N个无序集合, 每个集 合元素包括分类和定位信息; 利用级联思想, 对输出的候选框进 行调整, 每个级联阶段的输 出信息都利用最佳二分匹配和分类回归损失进行训练, 直至整个网络模型收敛; 步骤(4)、 生成定位检测结果; 根据最佳二分匹配方法, 对模型输出的特征向量进行一对一的标签匹配; 模型训练输 出的候选 框即为最终的预测框 。 2.根据权利要求1所述的一种基于动态实例交互头的稀疏时序动作检测方法, 其特征 在于, 步骤(1)所述的数据预处 理, 提取视频 数据的初始时空特 征, 具体如下: 对于视频数据集V中的每个输入视频vn, 首先以30FPS抽取图像帧, 同时使用TVL ‑1算法 抽取视频的光流; 对抽取好的的图像和光流进行特征提取, 使用基于Kinetics数据集预训 练的I3D模型分别提取图像和光流对应的特征 和 其中N表示 不同视频具有不同的时序长度, 1024则代表每个视频片段经过预训练的I3D模型提取后输 出的特征维度; 为了整合输入视频的外观特征和运动特征, 将图像特征Frgb和光流特征Fflow 在时序维度上进行堆叠, 并获得初始时空特征 再接着, 用滑动窗口在时序长 度N上以5 0%的重叠率进行滑动, 最终得到窗口 的时空特 征 其中T=25 6。 3.根据权利要求2所述的一种基于动态实例交互头的稀疏时序动作检测方法, 其特征 在于, 步骤(2)所述的基于时序特 征金字塔结构的动态实例交 互头网络模型, 具体如下:权 利 要 求 书 1/3 页 2 CN 114998989 A 22‑1、 时序特 征金字塔; 金字塔结构中传统 的自下而上的路径实质为一个下采样卷积神经网络的前馈计算, 采 用图注意力卷积(Graph  Attention  Network, GAT)加上步长为2的最大池化操作代替原有 的简单一维卷积, 具体公式为: Fhigh=Maxpooling(GAT(Fcur))    (1) 其中Fhigh表示经过当前图卷积的高层特征图输出, Fcur表示当前层的输入特征; 接着是 自上向下 的路径, 实质上是为了增大带有高层语义信息的特征图分辨率; 对顶部具有大感 受野的特征图做上采样, 步长与最大池化操作相同都为2, 上采样时用线性插值的方式; 上 采样完后与自下向上卷积时具有相同尺寸的特征图进 行横向连接, 融合时采用对应元素相 加的形式, 具体公式可表示 为: Flow=Interpolate(conv(Fcur))    (2) 其中conv为一个1×3的卷积, 用于减轻 上采用的混叠效果; 2‑2、 动态实例交 互头; 动态实例交互头的输入包括三个内容: 一是时序 金字塔网络输出的多尺度特征层中的 F1、 F2、 F3、 F4, 其中 Fea=2048是 特征维度; 二是可学习提案框; 三是可学习提案特征; 最 终动态实例交互头的输出内容包括 两部分: 一个是类别预测, 另一个是边界预测; 上述提到的可学习的提案框最终被用作候选提案; 这些提案框被初始化为0 ‑1的二维 参数, 表示标准化的中心坐标和 动作持续时间长度; 在训练期间, 将使用反向传播算法更新 提案框的参数; 候选提案的数量大于 视频数据集中所有视频剪辑的最大真值动作实例数; 虽然二维提案框是一个对动作范围简单而明确的表述, 但是只 提供了对动作持续 时间 的粗略定位, 丢失了很多细节性信息; 因此, 引入提案特征, 它是一个高维潜在向量, 将对丰 富的动作实例进行编码; 提案特 征的数量和提案 框的数量相同; 初始化的提案框被映射到0 ‑1的单位时间, 在输入到动态实例交互头之前, 给其初始化 权重, 根据时序金字塔网络输出的尺度大小分别放缩到0 ‑256帧、 0‑128帧、 0‑64帧和0‑32帧 大小; 通过SOI ‑Align模块使用提案框从时序特征金字塔中提取SOI特征Rsoi, 每个SOI特征 都会被用到自己的专用头部, 用于动作分类和定位, 每个头部都以特定的提案特征为条件; PK进行自注意力生成卷积核参数PKconv, 然后生成的卷积核参数PKconv与Rsoi稀疏交互, 以过 滤掉无效的单 元, 并输出最终的预测特 征Ffin; 具体交互过程如下面公式所示: Ffin=norm3(drop3(forw(norm2(drop2(inter(Rsoi,norm1(drop1(PK)+PKconv)))+PK)))+ PK)                                 (3) 其中norm1、 norm2、 norm3为神经网络中的全连接层, drop1、 drop2、 drop3为梯度截断, forw是前馈神经网络, 具体内容如公式所示: forw(x)= Linear2(relu(drop(L inear1(x))))      (4) Linear1、 Linear2为全连接网络, relu为激活函数; 公式(3)中的稀疏 交互部分可表示为 如下公式: inter(x,y)=relu(n orm(bmm(x,Linear(y))))     (5) bmm为对输入的两个参数进行矩阵乘法; 因此, 交互过程可以视为SOI特征通过两个一权 利 要 求 书 2/3 页 3 CN 114998989 A 3

PDF文档 专利 一种基于动态实例交互头的稀疏时序动作检测方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于动态实例交互头的稀疏时序动作检测方法 第 1 页 专利 一种基于动态实例交互头的稀疏时序动作检测方法 第 2 页 专利 一种基于动态实例交互头的稀疏时序动作检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:32:53上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。