(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210811333.7
(22)申请日 2022.07.11
(71)申请人 武汉理工大 学
地址 430070 湖北省武汉市洪山区珞狮路
122号
(72)发明人 陈亚雄 杨锴 黄景灏 周中舟
熊盛武
(74)专利代理 机构 武汉科皓知识产权代理事务
所(特殊普通 合伙) 42222
专利代理师 肖明洲
(51)Int.Cl.
G06F 16/78(2019.01)
G06V 20/40(2022.01)
G06V 10/74(2022.01)
G06V 10/82(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于深度学习的大规模短视频检索方法、 系
统及设备
(57)摘要
本发明公开了一种基于深度学习的大规模
短视频检索方法、 系统及设备, 本发明的方法首
先针对待检索短视频, 进行关键帧提取与视频标
准化处理; 然后将处理后的短视频输入短视频语
义特征提取网络, 利用相似度计算得到相似的T
个视频; 其中, T为预设值; 本发明设计了一种新
的设计了一种新的短视频语义特征提取网络来
提取三维视频数据在二维空间中的数据表示。 并
且在固有卷积神经网络的结构下引入哈希表示
层得到短视频在汉明空间中的相应哈希码。 本发
明不仅捕获了不同模式下哈希码的相对语义相
关, 而且显著减少了短视频检索的时空复杂度。
本发明充分利用视频时空语义信息, 进一步提升
检索性能。
权利要求书3页 说明书7页 附图2页
CN 115357754 A
2022.11.18
CN 115357754 A
1.一种基于深度学习的大规模短视频检索方法, 其特 征在于, 包括以下步骤:
步骤1: 将查询数据和检索集中短视频, 进行关键帧提取与视频 标准化处理;
步骤2: 将处理后的数据输入短视频语义特征提取网络, 利用相似度计算得到相似的T
个视频; 其中, T为预设值;
所述短视频语义特征提取网络, 由特征提取模块和特征哈希码映射模块构成, 包括第
一3×3×3卷积层、 第一1 ×2×2池化层、 第二3 ×3×3卷积层、 第二2 ×2×2池化层、 第三3 ×
3×3卷积层、 第三2 ×2×2池化层、 第四3 ×3×3卷积层、 第四2 ×2×2池化层、 第五3 ×3×3
卷积层、 第五2 ×2×2池化层、 第一1 ×4096全连接层、 第二1 ×4096全连接层、 哈希层组成;
所述第一3 ×3×3卷积层、 第一1 ×2×2池化层、 第二3 ×3×3卷积层、 第二2 ×2×2池化
层、 第三3 ×3×3卷积层、 第三2 ×2×2池化层、 第四3 ×3×3卷积层、 第四2 ×2×2池化层、 第
五3×3×3卷积层、 第五2 ×2×2池化层顺序连接, 共同构成特征提取模块, 输入短视频, 经
过特征提取模块得到短视频原 始特征向量图;
所述第一1 ×4096全连接层、 第二1 ×4096全连接层、 哈希层顺序连接, 共同构成特征哈
希码映射模块, 输入短视频原始特征向量图, 经过短视频特征哈希码映射模块得到短视频
特征映射后的哈希码;
所述哈希层为被sigmo id函数激活的1 ×K全连接层, K为预设哈希码长度。
2.根据权利要求1所述的基于深度学习的大规模短视频检索方法, 其特征在于: 步骤1
中, 所述关键帧提取, 是根据短视频镜头特性, 即采取一镜到底的方式进行拍摄, 采用等间
隔抽取关键帧技 术进行关键帧提取;
若输入视频
其中Fi为第i个视频帧, N为视频V
的总帧数; 则提取的关键帧
其中, t代表以秒为 单位的视频长度, FPS代表帧率, n
是视频挑选的帧数, t=1,2,. ..,n。
3.根据权利要求1所述的基于深度学习的大规模短视频检索方法, 其特征在于: 步骤1
中, 所述视频标准化处理, 是根据视频尺寸的大小, 如果视频图像大于预设值, 则进行下采
样操作处理, 将M×N的图像进行s倍下采样, 得到(M /s)×(N/s)的图像; 具体公式如下:
DS(f)=Pavg({b1,b1,……,bn})
其中, f为视频帧, b为图片分割成的不同的s ×s的小块, Pavg()为均值池化操作;
如果视频图像的尺寸小于预设值, 则进插值操作处理, 缺少的像素值为横向最近像素
点与纵向最近像素点的值的均值; 最后将每一帧处 理过的图像进行拼接得到 完整的视频。
4.根据权利要求1所述的基于深度学习的大规模短视频检索方法, 其特征在于: 步骤2
中, 使用短视频语义特征提取网络计算处理后的短视频的哈希码, 将查询数据和检索集各
样本的哈希码之间的汉明距离从大到小排序, 并计算 排名列表的前T个精度作为检索结果。
5.根据权利要求1 ‑4任意一项所述的基于深度学习的大规模短视频检索方法, 其特征
在于: 步骤2中所述短视频语义特征提取网络, 为训练好的短视频语义特征提取网络; 其训
练过程包括以下步骤:
步骤2.1: 获取 数据集, 并划分为训练数据集和 测试数据集;
步骤2.2: 针对训练数据集和 测试数据集, 进行关键帧提取与视频 标准化处理;权 利 要 求 书 1/3 页
2
CN 115357754 A
2步骤2.3: 确定训练 目标函数、 优化算法、 学习率、 动量、 权值衰减、 批量大小和网络训练
迭代次数 epoch;
所述目标函数Loss由三元组损失函数LTriplet, 交叉熵损失函数LCE和平滑平均精度损失
函数LAP组成;
Loss=α LTriplet+β LCE+γLAP;
其中, α、 β、 γ均为超参数, 通过训练模型反向传播技术从而得到网络的权重参数W和 偏
置参数B;
所述三元组损失函数
其
中,
为锚样本, 是选定的某个类型的视频数据,
为与锚样本同类型的正例样本,
为
与锚样本不同类型的负例样本; f()为将样本数据映射到同一个向量空间函数; l为预设的
负例样本与正例样本的最小距离; K为数据总样本数;
所述多分类的交叉熵损失函数
其中, K为数据
总样本数, M为类别的数量; yic为符号函数, 取值0或1, 如果样本i的真是类别等于c则取1;
pic为观测样本i属于类别c的预测概 率;
所述平滑平均精度损失函数
其中, m为样本个数; APk为平滑平
均估计值,
SP为数据集中和查询视频属于同一
类型的视频集合,
表示将指示函数替换为了可导的Si gmoid函数; Dij为排名矩阵, 第i行表
示第i个样本和其 余样本的相关性的排名分数; τ 为平 滑系数;
步骤2.4: 将训练数据集输入所述短视频语义特征提取网络中, 训练所述短视频语义特
征提取网络;
步骤2.5: 使用训练后的短视频语义特征提取网络计算测试数据集中样本的哈希码, 将
查询样本和训练数据集各样本的哈希码之 间的汉明距离从大到小排序, 并计算排名列表的
前n个精度, 得出平均精度指标MAP和前n名检索结果; 输入视频的类别和检索到的视频类别
相同即为检索正确, 上述损失函数值趋 于稳定不再 下降则得到效果 好的网络 。
6.一种基于深度学习的大规模短视频检索系统, 其特征在于: 包括预处理模块和检索
模块;
所述预处理模块, 用于将查询数据和检索集中短视频, 进行关键帧提取与视频标准化
处理;
所述检索模块, 用于将处理后的数据输入短视频语义特征提取网络, 利用相似度计算
得到相似的T个视频; 其中, T为预设值;
所述短视频语义特征提取网络, 由特征提取模块和特征哈希码映射模块构成, 包括第
一3×3×3卷积层、 第一1 ×2×2池化层、 第二3 ×3×3卷积层、 第二2 ×2×2池化层、 第三3 ×
3×3卷积层、 第三2 ×2×2池化层、 第四3 ×3×3卷积层、 第四2 ×2×2池化层、 第五3 ×3×3
卷积层、 第五2 ×2×2池化层、 第一1 ×4096全连接层、 第二1 ×4096全连接层、 哈希层组成;
所述第一3 ×3×3卷积层、 第一1 ×2×2池化层、 第二3 ×3×3卷积层、 第二2 ×2×2池化权 利 要 求 书 2/3 页
3
CN 115357754 A
3
专利 基于深度学习的大规模短视频检索方法、系统及设备
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:10上传分享