专利 视频类别预测方法、视频类别预测模型的训练方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221076123 0.4 (22)申请日 2022.06.30 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦二层 (72)发明人吴文灏　夏博洋　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师罗岚 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/74(2022.01) G06V 10/40(2022.01) G06K 9/62(2022.01) G06F 40/205(2020.01) (54)发明名称视频类别预测方法、视频类别预测模型的训练方法及装置 (57)摘要本公开提出了视频类别预测方法、视频类别预测模型的训练方法及装置，具体涉及深度学习、图像处理和计算机视觉技术领域。方案为：获取目标特征序列，该序列中目标特征是根据目标视频中从首个视频帧至对应视频帧之间各视频帧的特征确定的；确定设定的类别文本集合中至少两个类别文本的文本特征；根据任一目标特征与任一类别文本的文本特征之间的候选相似度，从至少两个类别文本的文本特征中确定与目标特征之间的候选相似度大于设定阈值的目标文本特征；根据目标文本特征，对目标视频进行类别预测，由此，根据目标特征序列中至少一个融合历史视频帧的特征信息的目标特征进行目标视频的类别预测，可提高目标视频的类别预测准确度。权利要求书6页说明书19页附图10页 CN 115131709 A 2022.09.30 CN 115131709 A 1.一种视频类别预测方法，包括：获取目标特征序列，其中，所述目标特征序列中的至少两个目标特征与目标视频中的至少两个视频帧一一对应，所述目标特征是根据所述目标视频中从首个视频帧至对应视频帧之间各视频帧的特征确定的；对设定的类别文本集合中至少两个类别文本进行文本特征提取，以得到所述至少两个类别文本的文本特征；根据任一所述目标特征与任一所述类别文本的文本特征之间的候选相似度，从所述至少两个类别文本的文本特征中确定目标文本特征，其中，所述目标文本特征与所述目标特征之间的候选相似度大于设定阈值；根据所述目标文本特征，对所述目标视频进行类别预测。 2.根据权利要求1所述的方法，其中，所述获取目标特征序列，包括：对所述目标视频的至少两个视频帧分别进行特征提取，以得到各视频帧的原始特征图；针对所述至少两个视频帧中除首个视频帧之外的任一视频帧，根据参考视频帧的原始特征图对所述任一视频帧的原始特征图进行更新，以得到所述任一视频帧的目标特征图，其中，所述参考视频帧是所述至少两个视频帧中在所述任一视频帧之前采集的图像；根据所述首个视频帧的原始特征图以及所述至少两个视频帧中除首个视频帧之外的任一视频帧的目标特征图，确定目标特征序列。 3.根据权利要求1所述的方法，其中，所述根据所述目标文本特征，对所述目标视频进行类别预测，包括：根据所述目标文本特征，从各所述类别文本中确定所述目标文本特征对应的目标类别文本；根据所述目标类别文本，预测所述目标视频的类别。 4.根据权利要求1所述的方法，其中，所述根据任一所述目标特征与任一所述类别文本的文本特征之间的候选相似度，从所述至少两个类别文本的文本特征中确定目标文本特征，包括：依次确定所述至少两个目标特征与所述至少两个类别文本的文本特征之间的候选相似度，直至所述目标特征序列中第一目标特征与所述至少两个类别文本的文本特征之间的候选相似度中存在大于设定阈值的目标相似度，停止第二目标特征与所述至少两个类别文本的文本特征之间的候选相似度的确定，其中，所述第二目标特征为所述目标特征序列中所述第一目标特征之后的目标特征；根据所述目标相似度，确定所述目标文本特征。 5.根据权利要求1 ‑4中任一项所述的方法，其中，所述方法还包括：获取设定的类别集合；将所述类别集合中的至少两个类别，填充至类别文本模板中，以得到至少两个类别文本；根据所述至少两个类别文本，确定类别文本集合。 6.一种视频类别预测模型的训练方法，包括：获取至少两个样本视频以及样本类别文本集合，其中，所述样本类别文本集合包括所权　利　要　求　书 1/6 页 2 CN 115131709 A 2述至少两个样本视频的类别文本；获取样本目标特征集合，其中，所述样本目标特征集合包括至少两个样本目标特征序列，各所述样本目标特征序列是根据所述至少两个样本视频中同一位置的视频帧的样本目标特征确定的；采用初始的视频类别预测模型对样本类别文本集合中的各样本类别文本进行文本特征提取，以得到所述各样本类别文本的样本文本特征；采用初始的视频类别预测模型确定任一所述样本目标特征序列与至少两个样本文本特征之间的候选相似度矩阵；根据任一所述样本目标特征序列对应的候选相似度矩阵，以及与任一所述样本目标特征序列对应的所述至少两个样本视频的标注标签矩阵，对所述初始的视频类别预测模型进行训练，其中，与任一所述样本目标特征序列对应的所述至少两个样本视频的标注标签矩阵中的各行中的非零元素用于指示对应样本视频所属的类别标签。 7.根据权利要求6所述的方法，其中，所述根据任一所述样本目标特征序列对应的候选相似度矩阵，以及与任一所述样本目标特征序列对应的所述至少两个样本视频的标注标签矩阵，对所述初始的视频类别预测模型进行训练，包括：分别对任一所述样本目标特征序列对应的候选相似度矩阵中的各行向量和各列向量进行归一化，以得到至少两个第一行向量和至少两个第一列向量；分别对与任一所述样本目标特征序列对应的标注标签矩阵中的各行向量和各列向量进行归一化，以得到至少两个第二行向量和至少两个第二列向量；确定所述至少两个第一行向量与对应的第二行向量之间的第一差异，以及确定所述至少两个第一列向量与对应的第二列向量之间的第二差异；根据至少两个所述第一差异，确定第一子损失值，根据至少两个所述第二差异，确定第二子损失值；根据所述第一子损失值和所述第二子损失值，对所述初始的视频类别预测模型进行训练。 8.根据权利要求7 所述的方法，其中，所述方法还包括：在任一所述样本目标特征对应的候选相似度矩阵中的各行的至少两个候选相似度中确定目标相似度，其中，所述目标相似度为大于设定阈值的候选相似度；采用所述初始的视频类别预测模型根据所述目标相似度，对与所述目标相似度对应的样本视频进行类别预测，以得到与所述目标相似度对应的目标样本视频的预测类别标签；根据所述目标样本视频的预测类别标签，与所述目标样本视频的标注标签之间的差异，生成第三子损失值；根据所述第三子损失值，对所述初始的视频类别预测模型进行训练。 9.根据权利要求6所述的方法，所述采用初始的视频类别预测模型确定任一所述样本目标特征序列与至少两个样本文本特征之间的候选相似度矩阵，包括：针对所述至少两个样本视频中的各样本视频，采用初始的视频类别预测模型依次确定各所述样本视频对应的至少两个样本目标特征与至少两个样本文本特征之间的候选相似度，直至所述样本目标特征中第一样本目标特征与所述至少两个文本特征之间的候选相似度中存在大于设定阈值的候选相似度，停止第二样本目标特征与所述至少两个样本文本特权　利　要　求　书 2/6 页 3 CN 115131709 A 3

专利 视频类别预测方法、视频类别预测模型的训练方法及装置

专利视频类别预测方法、视频类别预测模型的训练方法及装置