专利 基于深度学习的大规模短视频检索方法、系统及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210811333.7 (22)申请日 2022.07.11 (71)申请人武汉理工大学地址 430070 湖北省武汉市洪山区珞狮路 122号 (72)发明人陈亚雄　杨锴　黄景灏　周中舟　熊盛武　 (74)专利代理机构武汉科皓知识产权代理事务所(特殊普通合伙) 42222 专利代理师肖明洲 (51)Int.Cl. G06F 16/78(2019.01) G06V 20/40(2022.01) G06V 10/74(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于深度学习的大规模短视频检索方法、系统及设备 (57)摘要本发明公开了一种基于深度学习的大规模短视频检索方法、系统及设备，本发明的方法首先针对待检索短视频，进行关键帧提取与视频标准化处理；然后将处理后的短视频输入短视频语义特征提取网络，利用相似度计算得到相似的T 个视频；其中， T为预设值；本发明设计了一种新的设计了一种新的短视频语义特征提取网络来提取三维视频数据在二维空间中的数据表示。并且在固有卷积神经网络的结构下引入哈希表示层得到短视频在汉明空间中的相应哈希码。本发明不仅捕获了不同模式下哈希码的相对语义相关，而且显著减少了短视频检索的时空复杂度。本发明充分利用视频时空语义信息，进一步提升检索性能。权利要求书3页说明书7页附图2页 CN 115357754 A 2022.11.18 CN 115357754 A 1.一种基于深度学习的大规模短视频检索方法，其特征在于，包括以下步骤：步骤1：将查询数据和检索集中短视频，进行关键帧提取与视频标准化处理；步骤2：将处理后的数据输入短视频语义特征提取网络，利用相似度计算得到相似的T 个视频；其中， T为预设值；所述短视频语义特征提取网络，由特征提取模块和特征哈希码映射模块构成，包括第一3×3×3卷积层、第一1 ×2×2池化层、第二3 ×3×3卷积层、第二2 ×2×2池化层、第三3 × 3×3卷积层、第三2 ×2×2池化层、第四3 ×3×3卷积层、第四2 ×2×2池化层、第五3 ×3×3 卷积层、第五2 ×2×2池化层、第一1 ×4096全连接层、第二1 ×4096全连接层、哈希层组成；所述第一3 ×3×3卷积层、第一1 ×2×2池化层、第二3 ×3×3卷积层、第二2 ×2×2池化层、第三3 ×3×3卷积层、第三2 ×2×2池化层、第四3 ×3×3卷积层、第四2 ×2×2池化层、第五3×3×3卷积层、第五2 ×2×2池化层顺序连接，共同构成特征提取模块，输入短视频，经过特征提取模块得到短视频原始特征向量图；所述第一1 ×4096全连接层、第二1 ×4096全连接层、哈希层顺序连接，共同构成特征哈希码映射模块，输入短视频原始特征向量图，经过短视频特征哈希码映射模块得到短视频特征映射后的哈希码；所述哈希层为被sigmo id函数激活的1 ×K全连接层， K为预设哈希码长度。 2.根据权利要求1所述的基于深度学习的大规模短视频检索方法，其特征在于：步骤1 中，所述关键帧提取，是根据短视频镜头特性，即采取一镜到底的方式进行拍摄，采用等间隔抽取关键帧技术进行关键帧提取；若输入视频其中Fi为第i个视频帧， N为视频V 的总帧数；则提取的关键帧其中， t代表以秒为单位的视频长度， FPS代表帧率， n 是视频挑选的帧数， t＝1,2,. ..,n。 3.根据权利要求1所述的基于深度学习的大规模短视频检索方法，其特征在于：步骤1 中，所述视频标准化处理，是根据视频尺寸的大小，如果视频图像大于预设值，则进行下采样操作处理，将M×N的图像进行s倍下采样，得到(M /s)×(N/s)的图像；具体公式如下： DS(f)＝Pavg({b1,b1,……,bn}) 其中， f为视频帧， b为图片分割成的不同的s ×s的小块， Pavg()为均值池化操作；如果视频图像的尺寸小于预设值，则进插值操作处理，缺少的像素值为横向最近像素点与纵向最近像素点的值的均值；最后将每一帧处理过的图像进行拼接得到完整的视频。 4.根据权利要求1所述的基于深度学习的大规模短视频检索方法，其特征在于：步骤2 中，使用短视频语义特征提取网络计算处理后的短视频的哈希码，将查询数据和检索集各样本的哈希码之间的汉明距离从大到小排序，并计算排名列表的前T个精度作为检索结果。 5.根据权利要求1 ‑4任意一项所述的基于深度学习的大规模短视频检索方法，其特征在于：步骤2中所述短视频语义特征提取网络，为训练好的短视频语义特征提取网络；其训练过程包括以下步骤：步骤2.1：获取数据集，并划分为训练数据集和测试数据集；步骤2.2：针对训练数据集和测试数据集，进行关键帧提取与视频标准化处理；权　利　要　求　书 1/3 页 2 CN 115357754 A 2步骤2.3：确定训练目标函数、优化算法、学习率、动量、权值衰减、批量大小和网络训练迭代次数 epoch；所述目标函数Loss由三元组损失函数LTriplet，交叉熵损失函数LCE和平滑平均精度损失函数LAP组成； Loss＝α LTriplet+β LCE+γLAP；其中， α、 β、 γ均为超参数，通过训练模型反向传播技术从而得到网络的权重参数W和偏置参数B；所述三元组损失函数其中，为锚样本，是选定的某个类型的视频数据，为与锚样本同类型的正例样本，为与锚样本不同类型的负例样本； f()为将样本数据映射到同一个向量空间函数； l为预设的负例样本与正例样本的最小距离； K为数据总样本数；所述多分类的交叉熵损失函数其中， K为数据总样本数， M为类别的数量； yic为符号函数，取值0或1，如果样本i的真是类别等于c则取1； pic为观测样本i属于类别c的预测概率；所述平滑平均精度损失函数其中， m为样本个数； APk为平滑平均估计值， SP为数据集中和查询视频属于同一类型的视频集合，表示将指示函数替换为了可导的Si gmoid函数； Dij为排名矩阵，第i行表示第i个样本和其余样本的相关性的排名分数； τ 为平滑系数；步骤2.4：将训练数据集输入所述短视频语义特征提取网络中，训练所述短视频语义特征提取网络；步骤2.5：使用训练后的短视频语义特征提取网络计算测试数据集中样本的哈希码，将查询样本和训练数据集各样本的哈希码之间的汉明距离从大到小排序，并计算排名列表的前n个精度，得出平均精度指标MAP和前n名检索结果；输入视频的类别和检索到的视频类别相同即为检索正确，上述损失函数值趋于稳定不再下降则得到效果好的网络。 6.一种基于深度学习的大规模短视频检索系统，其特征在于：包括预处理模块和检索模块；所述预处理模块，用于将查询数据和检索集中短视频，进行关键帧提取与视频标准化处理；所述检索模块，用于将处理后的数据输入短视频语义特征提取网络，利用相似度计算得到相似的T个视频；其中， T为预设值；所述短视频语义特征提取网络，由特征提取模块和特征哈希码映射模块构成，包括第一3×3×3卷积层、第一1 ×2×2池化层、第二3 ×3×3卷积层、第二2 ×2×2池化层、第三3 × 3×3卷积层、第三2 ×2×2池化层、第四3 ×3×3卷积层、第四2 ×2×2池化层、第五3 ×3×3 卷积层、第五2 ×2×2池化层、第一1 ×4096全连接层、第二1 ×4096全连接层、哈希层组成；所述第一3 ×3×3卷积层、第一1 ×2×2池化层、第二3 ×3×3卷积层、第二2 ×2×2池化权　利　要　求　书 2/3 页 3 CN 115357754 A 3

专利 基于深度学习的大规模短视频检索方法、系统及设备

专利基于深度学习的大规模短视频检索方法、系统及设备