说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210792440.X (22)申请日 2022.07.07 (71)申请人 沈阳航空航天大 学 地址 110136 辽宁省沈阳市道义经济开发 区道义南大街37号 申请人 中国人民大 学 (72)发明人 张德园 刘桃 范胜旭 田健鲲  杜小勇  (74)专利代理 机构 沈阳东大知识产权代理有限 公司 21109 专利代理师 李在川 (51)Int.Cl. G06T 7/246(2017.01) G06V 10/10(2022.01) G06V 10/20(2022.01)G06V 10/62(2022.01) G06V 10/74(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 40/16(2022.01) G10L 25/51(2013.01) G10L 25/78(2013.01) (54)发明名称 一种基于多模态信息的发言人跟踪方法及 系统 (57)摘要 本发明公开了一种基于多模态信息的发言 人跟踪方法及系统, 涉及发言人跟踪领域。 可应 用于线下会议或线上会议的在线的发言人跟踪 任务, 能够快速、 准确地定位发言人, 给出 发言人 特写; 也可用于在提供的视频中标注出视频每个 部分中的发言人的非在线任务。 在同一画面出现 多个人脸且每个人轮流交替发言的情况下, 利用 输入的图像及对应的音频信息计算出图像中每 个人脸的发言唇动得分、 音貌匹配得分以及唇形 同步得分, 并根据图像中的每个人脸得分定位具 体发言人。 同时支持提前录入注册配对的人声人 脸对, 并且支持在使用过程中将配对置信度高的 人声人脸对录入到先验数据库中。 权利要求书4页 说明书11页 附图4页 CN 115131405 A 2022.09.30 CN 115131405 A 1.一种基于多模态信 息的发言人跟踪系统, 其特征在于: 所述系统包括: 语音的身份信 息特征提取模块、 语音的内容信息特征提取模块、 图像的面貌信息特征提取模块、 图像的内 容特征提取模块、 人脸图像质量计算模块、 人脸检测与分组模块、 唇形同步模块、 说话唇动 识别模块、 音貌匹配模块及先验数据库; 采用语音的身份信息特 征提取模块, 对输入的音频提取 得到语音 身份信息特 征向量; 采用语音的内容信息特 征提取模块, 对输入的音频提取 得到语音内容信息特 征向量; 采用图像的面貌信息特征提取模块, 依 次将r张输入图像face1...facer提取得到逐帧 人脸面貌特征向量, 并将每张图像输入到人脸图像质量计算模块中, 计算得到每张输入图 像质量得分, 将r张图像的质量得分与r个逐帧人脸面貌特征向量的通道维度上进行拼接, 提取得到人脸 面貌特征向量; 采用图像的内容特征提取模块, 将r张输入图像在时间维度 上进行拼接, 得到拼接后的 图像拼接 向量; 将每张输入图像单独输入到人脸图像质量计算模块, 得到每张输入图像质 量得分, 将每张输入图像的质量得分复制扩展后与图像拼接 向量进行拼接和特征提取, 得 到人脸唇部内容特 征向量; 人脸图像质量计算模块, 将单张彩色人脸图像输入到卷积神经网络, 得到 图像质量得 分; 人脸检测与分组模块, 逐帧检测视频片段中的人脸, 给出每个人脸的矩阵信息, 将属于 同一个人 的人脸矩阵分为一组, 并对缺失人脸信息的帧进行人脸信息补全, 得到完整的人 脸矩阵序列; 唇形同步模块, 输入人脸唇部内容特征向量与语音内容信息特征向量, 利用余弦相似 度计算两个特 征向量的相似度, 得到唇 形同步得分; 说话唇动识别模块, 将人脸唇部 内容特征向量输入到一个或多个具有激活函数的全连 接层后, 再输入到带有Sigmo id激活函数的全连接层, 得到说话唇动得分; 音貌匹配模块, 输入人脸面貌信息特征向量与语音身份信息特征向量, 利用L1距离计 算两个特 征向量的距离, 得到音貌匹配得分; 先验数据库, 支持提前录入先验数据库及在使用中录入先验数据库, 在发言人跟踪过 程中优先使用先验数据库进行匹配。 2.根据权利要求1所述的基于多模态信息的发言人跟踪系统, 其特 征在于: 所述语音的身份信 息特征提取模块, 具体为: 对输入的音频, 经过梅尔滤波器提取网络 滤波器组特征v0; 将网络滤波器组特征v0输入到第一卷积神经网络中, 提取得到w1维的中间 向量v1, 对中间向量v1进行L2正则化, 通过c1个全连接层, 提取得到语音身份信息特征向量 embvid; 所述语音的内容信息特征提取模块, 具体为: 将中间向量v1进行L2正则化, 通过c2个全 连接层, 得到w2维的中间向量v2; 将中间向量v2通过c3个全连接层, 得到w3维的中间向量v3; 使用残差连接, 将中间向量v2和v3相加, 得到v4=v2+v3, 再通过c4个全连接层, 得到语音内容 信息特征向量embvct。 3.根据权利要求1所述的基于多模态信息的发言人跟踪系统, 其特 征在于: 所述图像的面貌信息特征提取模块, 具体为: 依次将r张输入图像face1...facer输入到 第二卷积神经网络(Inc eption‑V1)中, 提取得到w4维的中间向量 并进行L2正则化, 通过c5权 利 要 求 书 1/4 页 2 CN 115131405 A 2个全连接层, 提取得到w5维的特征向量 r张输入图像处理后将得到形状为(r, w5)的特征 向量zfid; 将每张输入图像facei单独输入到人脸图像质量计算模块中, 计算得到每张输入 图像质量得分qi; r张输入图像得到形状为(r, 1)的质量得分向量q; 将质量得分向量q和特征向量zfid拼 接得到形状 为(r, w5+1)维的向量, 输入 到循环神经网络(LSTM)中, 计 算得到w5+1维的中间向 量z1; 将中间向量z1通过c6个全连接层, 得到综合r张输入图像的人脸 面貌特征向量embfid; 所述图像的内容特征提取模块, 具体为; 将r张输入图像在时间维度上进行拼接, 其他 维度保留, 得到(c, w*r, h)大小的向量, 其中, c表示输入图像的通道数, 若输入的是彩色图 像, 则c=3; 若输入的是灰度图, 则c=1; 其中, r表示输入图像张数; w表示输入图像宽度的 像素个数; h表示的是输入图像高度的像素个数, 拼接后的输入图像拼接向量 为x0; 将每张输入图像单独输入到人脸 图像质量计算模块, 得到形状为(r, 1)的质量得分向 量x1; 将形状为(r, 1)的质量得分向量x1复制拓展为形状为(1, w*r, h)的质量得分向量x2, x2 [1, i, j]=x1[i%w, 1], i∈[0, w*r), j∈[0, h); 将输入图像拼接向量x0与质量得分向量x2在 第一维度进行拼接, 得到形状为(c+1, w*r, h)的特 征向量x3; 将特征向量x3输入到第三卷积神经网络中, 提取得到w6维的特征向量, 记为x4; 将中间 向量x4进行L2归一 化, 得到内容特 征向量embfct。 4.根据权利要求1所述的基于多模态信息的发言人跟踪系统, 其特 征在于: 所述人脸图像质量计算模块, 将单张彩色人脸图像输入到第四卷积神经网络 (ResNet50), 得到w7维的中间向量v, 将此中间向量输入到带有Sigmoid激活函数 的全连接 层, 得到图像质量得分 scorequality∈(0, 1); 所述人脸检测与分组模块, 利用深度学习算法检测视频片段的每一帧中的所有人脸, 得到每个人脸的矩阵信息 表示第j帧中检测到的第i张人脸的矩阵信息; 根据相邻帧 的人脸矩阵信息的交并比将所有帧中属于同一个人的人脸矩阵分组, 若 与 的 交并比大于 设定的阈值, 则判定这两个人脸矩阵属于同一个人, 将 被划分到同一组中; 使用 线性插值法为缺 失人脸信息的帧根据相邻帧的人脸矩阵信息进行补 全; 根据补 全后的人脸 矩阵序列 裁剪得到人脸图像序列 5.根据权利要求1所述的基于多模态信息的发言人跟踪系统, 其特 征在于: 所述唇形同步模块, 输入人脸唇部内容特征向量embfct与语音内容信息特征向量 embvct, 利用余弦相似度计算两个特征向量的相似度, 即为唇形同步得分scorect, 其中 scorect∈[‑1, 1]; 得分越高表示越匹配; 所述说话唇动识别模块, 将人脸唇部内容特征向量embfct输入到带激活函数的全连接 层中, 得到w8维的中间向量a1; 将中间向量a1输入到带Sigmoid激活函数的全 连接层, 得到说 话唇动得分scoretalk∈(0, 1), 说话唇动得分越高说明计算得到的人脸唇部内容特征向量 所对应的人脸说话的可能性越高。 6.根据权利要求1所述的基于多模态信息的发言人跟踪系统, 其特 征在于: 所述音貌匹配模块, 输入人脸面貌信息特征向量embfid与语音身份信息特征向量 embvid, 利用L1距离计算两个特征向量的距离, 即为音貌匹配得分scoreid; 其中, scoreid≥权 利 要 求 书 2/4 页 3 CN 115131405 A 3

PDF文档 专利 一种基于多模态信息的发言人跟踪方法及系统

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多模态信息的发言人跟踪方法及系统 第 1 页 专利 一种基于多模态信息的发言人跟踪方法及系统 第 2 页 专利 一种基于多模态信息的发言人跟踪方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:32:12上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。