说明:收录90万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210765668.X (22)申请日 2022.07.01 (71)申请人 南京大学 地址 210033 江苏省南京市栖霞区仙林大 道163号 (72)发明人 王利民 金力为 (74)专利代理 机构 无锡市天宇知识产权代理事 务所(普通 合伙) 32208 专利代理师 蒋何栋 (51)Int.Cl. G06F 16/783(2019.01) G06F 16/75(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06V 10/74(2022.01)G06V 20/40(2022.01) (54)发明名称 一种多模态视频理解方法 (57)摘要 本发明公开了一种多模态视频理解方法, 包 括建立多模态融合网络, 将 视频中的采样片段输 入多模态融合网络后得到一号特征向量及整个 视频的分类分数, 将视频标题文本通过编码器和 多层感知机得到二号特征向量, 将一号特征向量 与二号特征向量进行余弦相似度计算, 得出视频 对比学习框架。 本发明通过话题识别任务促进工 业界开发更完备的深度模型, 实现对于短视频整 体的高层语义理解; 视频文本互检索放弃了预定 义类别体系和传统的强监督学习范式, 转而使用 自然语言作为监督信号, 视频文本互检索并非唯 一利用语言信息帮助视频理解的途径, 视频标题 生成与基 于文本的视频生成同样可以实现。 权利要求书1页 说明书3页 附图3页 CN 115129934 A 2022.09.30 CN 115129934 A 1.一种多模态视频理解方法, 其特征在于, 包括建立多模态融合网络, 将视频中的采样 片段输入多模态融合网络后得到一号特征向量及整个视频的分类分数, 将视频标题文本通 过编码器和多层感知机得到二号特征向量, 将一号特征向量与二号特征向量进行余弦相似 度计算, 得 出视频对比学习框架。 2.根据权利要求1所述的多模态视频理解方法, 其特征在于, 所述多模态融合网络包括 信号输入端, 信号输入端将信号传导给编码 器, 编码器将信号提取出对应模态的特征向量; 一方面将特征向量用对应模态的类别分类分数, 将类别分类分数进行加权求和整个视频的 分类分数; 另一方面将特 征向量拼接后通过多层感知机生成一 号特征向量。 3.根据权利要求2所述的多模态视频理解方法, 其特征在于, 所述输入端包括视频帧输 入、 音频输入及字幕输入。 4.根据权利要求3所述的多模态视频理解方法, 其特征在于, 所述视频帧输入、 音频输 入及字幕输入 对应的编辑器分别为视频编码器、 音频编码器及字幕编码器。 5.根据权利要求1所述的多模态视频理解方法, 其特征在于, 所述一号特征向量、 二号 特征向量共用同一套编码器。 6.根据权利要求1所述的多模态视频理解方法, 其特征在于, 所述视频对比学习框架公 示如下: ; 其中, Fv(V)为第一特 征向量, Ft(T)为第二特 征向量。权 利 要 求 书 1/1 页 2 CN 115129934 A 2一种多模 态视频理解方 法 技术领域 [0001]本发明属于计算机软件技术领域, 涉及自监督特征学习和场景分类, 具体涉及一 种多模态视频理解方法。 背景技术 [0002]为了在数据集上对用户生成短视频理解设立基准, 现提出了两个具体 的任务, 分 别是话题识别以及视频文本互检索。 尽管话题识别和 动作识别都可以被归类为多类别单标 签的分类问题, 他们之间仍存在两个重要不同点。 [0003]话题识别使用相比于动作类别包含更多高层语义的话题作为标签。 相比于传统的 动作识别任务, 本发明提出 的话题识别任务鼓励使用视频内部的多种模态信息, 包括原始 帧、 音频、 字幕都可以在训练和测试阶段使用。 多模态处理工具如自动音频识别和光学字符 识别同样可以使用。 因此, 本发明定义的话题识别任务不是纯粹的实例级别视觉任务, 而 是 多模态高语义层级的视频分类任务。 [0004]大部分用户生成短视频都附带用户上传的标题, 该标题通常与对应视频具有强关 联性。 本发明将随着视频爬取 的标签视为自然存在的视频描述。 这些 “视频描述 ”并非由专 业的标注者标注, 通过爬虫可以规模化获取, 便于数据集的扩展。 更重要的是, 传统数据集 中存在的标注者的个人偏差问题因为由巨量 不同的用户作为 “标注人员 ”而得到缓解。 发明内容 [0005]发明目的: 本发明的目的基于标题的视频文本互检索任务包括两个子任务, 分别 为通过标题文本检索视频和通过视频检索标题文本 。 [0006]技术方案: 为了达到上述发明目的, 本 发明具体是这样来实现的: 一种多模态视频 理解方法, 包括建立多模态融合网络, 将视频中的采样片段输入多模态融合网络后得到一 号特征向量及整个视频的分类分数, 将视频标题文本通过编码器和多层感知机得到二号特 征向量, 将一 号特征向量与二 号特征向量进行余弦相似度计算, 得 出视频对比学习框架。 [0007]其中, 多模态融合网络包括信号输入端, 信号输入端将信号传导给编码器, 编码器 将信号提取出对应模态的特征向量; 一方面将特征向量用对应模态的类别分类分数, 将类 别分类分数进 行加权求和整个视频的分类分数; 另一方面将特征向量拼接后通过多层感知 机生成一 号特征向量。 [0008]其中, 输入端包括视频帧输入、 音频输入及字幕输入。 [0009]其中, 视频帧输入、 音频输入及字幕输入对应的编辑器分别为视频编码器、 音频编 码器及字幕编码器。 [0010]其中, 一号特征向量、 二 号特征向量共用同一套编码器。 [0011]其中, 视频对比学习框架公示如下: ;说 明 书 1/3 页 3 CN 115129934 A 3
专利 一种多模态视频理解方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:32:18
上传分享
举报
下载
原文档
(496.4 KB)
分享
友情链接
T-CSAE 143—2020 纯电动乘用车一体化电驱动总成测评规范.pdf
GB-T 35386-2017 无损检测 工业计算机层析成像(CT)检测用密度分辨力测试卡.pdf
民航 MH-T 6123.4-2023 行李处理系统 第4部分:托盘式分拣机.pdf
T-CAEPI 65—2023 固定污染源烟气自动监控监测系统 运行维护技术指南.pdf
GB-T 43706-2024 资产管理 战略资产管理计划 SAMP 实施指南.pdf
T-CESA 1219—2022 服务器基板管理控制器 BMC 测试方法.pdf
赛迪顾问 2019中国安全运营中心调研分析报告 2020.pdf
易制爆危险化学品治安管理办法.pdf
GB-T 40514-2021 电除尘器.pdf
DB11-T 1210-2015 工业照明设备运行节能监测 北京市.pdf
GB-T 17901.3-2021 信息技术 安全技术 密钥管理 第3部分:采用非对称技术的机制.pdf
T-CSEIA 1003—2023 能源工业互联网平台 发电侧电力数据的分类分级规范.pdf
GB-T 70.3-2008 内六角沉头螺钉.pdf
GB-T 5106-2012 圆柱直齿渐开线花键 量规.pdf
GB-T 42571-2023 信息安全技术 区块链信息服务安全规范.pdf
GB-T 29101-2012 道路交通信息服务 数据服务质量规范.pdf
GB-T 24627-2023 外科植入物用镍-钛形状记忆合金加工材.pdf
国君计算机 ChatGPT研究框架 ChatGPT-生成式AI迎来拐点,商用落地前景可期.pdf
GB-T 38775.2-2020 电动汽车无线充电系统 第2部分:车载充电机和无线充电设备之间的通信协议.pdf
GB-T 43253.3-2023 道路车辆 功能安全审核及评估方法 第3部分:软件层面.pdf
1
/
8
评价文档
赞助2.5元 点击下载(496.4 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。