说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221076123 0.4 (22)申请日 2022.06.30 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 吴文灏 夏博洋  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 罗岚 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/74(2022.01) G06V 10/40(2022.01) G06K 9/62(2022.01) G06F 40/205(2020.01) (54)发明名称 视频类别预测方法、 视频类别预测模 型的训 练方法及装置 (57)摘要 本公开提出了视频类别预测方法、 视频类别 预测模型的训练方法及装置, 具体涉及深度学 习、 图像处理和计算机视觉技术领域。 方案为: 获 取目标特征序列, 该序列中目标特征是根据目标 视频中从首个视频帧至对应视频帧之间各视频 帧的特征确定的; 确定设定的类别文本集合中至 少两个类别文本的文本特征; 根据任一目标特征 与任一类别文本的文本特征之间的候选相似度, 从至少两个类别文本的文本特征中确定与 目标 特征之间的候选相似度大于设定阈值的目标文 本特征; 根据目标文本特征, 对目标视频进行类 别预测, 由此, 根据目标特征序列中至少一个融 合历史视频帧的特征信息的目标特征进行目标 视频的类别预测, 可提高目标视频的类别预测准 确度。 权利要求书6页 说明书19页 附图10页 CN 115131709 A 2022.09.30 CN 115131709 A 1.一种视频类别预测方法, 包括: 获取目标特征序列, 其中, 所述目标特征序列中的至少两个目标特征与目标视频中的 至少两个视频帧一一对应, 所述目标特征是根据所述目标视频中从首个视频帧至对应视频 帧之间各视频帧的特 征确定的; 对设定的类别文本集合中至少两个类别文本进行文本特征提取, 以得到所述至少两个 类别文本的文本特 征; 根据任一所述目标特征与任一所述类别文本的文本特征之间的候选相似度, 从所述至 少两个类别文本的文本特征中确定目标文本特征, 其中, 所述 目标文本特征与所述 目标特 征之间的候选相似度大于设定阈值; 根据所述目标文本特 征, 对所述目标视频进行类别预测。 2.根据权利要求1所述的方法, 其中, 所述获取目标 特征序列, 包括: 对所述目标视频的至少两个视频帧分别进行特征提取, 以得到各视频帧的原始特征 图; 针对所述至少两个视频帧中除首个视频帧之外的任一视频帧, 根据参考视频帧的原始 特征图对所述任一视频帧的原始特征图进行更新, 以得到所述任一视频帧的目标特征图, 其中, 所述 参考视频帧是 所述至少两个视频帧中在所述任一视频帧之前采集的图像; 根据所述首个视频帧的原始特征图以及所述至少两个视频帧中除首个视频帧之外的 任一视频帧的目标 特征图, 确定目标 特征序列。 3.根据权利要求1所述的方法, 其中, 所述根据所述目标文本特征, 对所述目标视频进 行类别预测, 包括: 根据所述目标文本特征, 从各所述类别文本 中确定所述目标文本特征对应的目标类别 文本; 根据所述目标类别文本, 预测所述目标视频的类别。 4.根据权利要求1所述的方法, 其中, 所述根据任一所述目标特征与任一所述类别文本 的文本特征之间的候选相似度, 从所述至少两个类别文本的文本特征中确定目标文本特 征, 包括: 依次确定所述至少两个目标特征与所述至少两个类别文本的文本特征之间的候选相 似度, 直至所述目标特征序列中第一目标特征与所述至少两个类别文本的文本特征之 间的 候选相似度中存在大于 设定阈值的目标相似度, 停止第二目标特征与所述至少两个类别文 本的文本特征之间的候选相似度的确定, 其中, 所述第二 目标特征为所述 目标特征序列中 所述第一目标 特征之后的目标 特征; 根据所述目标相似度, 确定所述目标文本特 征。 5.根据权利要求1 ‑4中任一项所述的方法, 其中, 所述方法还 包括: 获取设定的类别集 合; 将所述类别集合中的至少两个类别, 填充至类别文本模板中, 以得到至少两个类别文 本; 根据所述至少两个 类别文本, 确定类别文本集 合。 6.一种视频类别预测模型的训练方法, 包括: 获取至少两个样本视频以及样本类别文本集合, 其中, 所述样本类别文本集合包括所权 利 要 求 书 1/6 页 2 CN 115131709 A 2述至少两个样本 视频的类别文本; 获取样本目标特征集合, 其中, 所述样本目标特征集合包括至少两个样本目标特征序 列, 各所述样本目标特征序列是根据所述至少两个样本视频中同一位置的视频帧的样本目 标特征确定的; 采用初始的视频类别预测模型对样本类别文本集合中的各样本类别文本进行文本特 征提取, 以得到所述各样本类别文本的样本文本特 征; 采用初始的视频类别预测模型确定任一所述样本目标特征序列与至少两个样本文本 特征之间的候选相似度矩阵; 根据任一所述样本目标特征序列对应的候选相似度矩阵, 以及与任一所述样本目标特 征序列对应的所述至少两个样本视频的标注 标签矩阵, 对所述初始的视频类别预测模型进 行训练, 其中, 与任一所述样本目标特征序列对应的所述至少 两个样本视频 的标注标签矩 阵中的各 行中的非零元 素用于指示对应样本 视频所属的类别标签。 7.根据权利要求6所述的方法, 其中, 所述根据任一所述样本目标特征序列对应的候选 相似度矩阵, 以及与任一所述样本目标特征序列对应的所述至少两个样本视频的标注标签 矩阵, 对所述初始的视频类别预测模型进行训练, 包括: 分别对任一所述样本目标特征序列对应的候选相似度矩阵中的各行向量和各列向量 进行归一 化, 以得到 至少两个第一行向量和至少两个第一列向量; 分别对与任一所述样本目标特征序列对应的标注标签矩阵中的各行向量和各列向量 进行归一 化, 以得到 至少两个第二行向量和至少两个第二列向量; 确定所述至少两个第 一行向量与对应的第 二行向量之间的第 一差异, 以及确定所述至 少两个第一列向量与对应的第二列向量之间的第二差异; 根据至少两个所述第一差异, 确定第 一子损失值, 根据至少两个所述第 二差异, 确定第 二子损失值; 根据所述第 一子损失值和所述第 二子损失值, 对所述初始的视频类别预测模型进行训 练。 8.根据权利要求7 所述的方法, 其中, 所述方法还 包括: 在任一所述样本目标特征对应的候选相似度矩阵中的各行的至少两个候选相似度中 确定目标相似度, 其中, 所述目标相似度为大于设定阈值的候选相似度; 采用所述初始的视频类别预测模型根据所述目标相似度, 对与 所述目标相似度对应的 样本视频进行类别预测, 以得到与所述目标相似度对应的目标样本 视频的预测类别标签; 根据所述目标样本视频的预测类别标签, 与所述目标样本视频的标注标签之间的差 异, 生成第三子损失值; 根据所述第三子损失值, 对所述初始的视频类别预测模型进行训练。 9.根据权利要求6所述的方法, 所述采用初始 的视频类别预测模型确定任一所述样本 目标特征序列与至少两个样本文本特 征之间的候选相似度矩阵, 包括: 针对所述至少两个样本视频中的各样本视频, 采用初始的视频类别预测模型依次确定 各所述样本视频对应的至少两个样本目标特征与至少两个样本文本特征之间的候选相似 度, 直至所述样本目标特征中第一样本目标特征与所述至少两个文本特征之间的候选相似 度中存在大于 设定阈值的候选相似度, 停止第二样本目标特征与所述至少两个样本文本特权 利 要 求 书 2/6 页 3 CN 115131709 A 3

PDF文档 专利 视频类别预测方法、视频类别预测模型的训练方法及装置

文档预览
中文文档 36 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共36页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视频类别预测方法、视频类别预测模型的训练方法及装置 第 1 页 专利 视频类别预测方法、视频类别预测模型的训练方法及装置 第 2 页 专利 视频类别预测方法、视频类别预测模型的训练方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:32:19上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。