(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210792440.X
(22)申请日 2022.07.07
(71)申请人 沈阳航空航天大 学
地址 110136 辽宁省沈阳市道义经济开发
区道义南大街37号
申请人 中国人民大 学
(72)发明人 张德园 刘桃 范胜旭 田健鲲
杜小勇
(74)专利代理 机构 沈阳东大知识产权代理有限
公司 21109
专利代理师 李在川
(51)Int.Cl.
G06T 7/246(2017.01)
G06V 10/10(2022.01)
G06V 10/20(2022.01)G06V 10/62(2022.01)
G06V 10/74(2022.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)
G06V 40/16(2022.01)
G10L 25/51(2013.01)
G10L 25/78(2013.01)
(54)发明名称
一种基于多模态信息的发言人跟踪方法及
系统
(57)摘要
本发明公开了一种基于多模态信息的发言
人跟踪方法及系统, 涉及发言人跟踪领域。 可应
用于线下会议或线上会议的在线的发言人跟踪
任务, 能够快速、 准确地定位发言人, 给出 发言人
特写; 也可用于在提供的视频中标注出视频每个
部分中的发言人的非在线任务。 在同一画面出现
多个人脸且每个人轮流交替发言的情况下, 利用
输入的图像及对应的音频信息计算出图像中每
个人脸的发言唇动得分、 音貌匹配得分以及唇形
同步得分, 并根据图像中的每个人脸得分定位具
体发言人。 同时支持提前录入注册配对的人声人
脸对, 并且支持在使用过程中将配对置信度高的
人声人脸对录入到先验数据库中。
权利要求书4页 说明书11页 附图4页
CN 115131405 A
2022.09.30
CN 115131405 A
1.一种基于多模态信 息的发言人跟踪系统, 其特征在于: 所述系统包括: 语音的身份信
息特征提取模块、 语音的内容信息特征提取模块、 图像的面貌信息特征提取模块、 图像的内
容特征提取模块、 人脸图像质量计算模块、 人脸检测与分组模块、 唇形同步模块、 说话唇动
识别模块、 音貌匹配模块及先验数据库;
采用语音的身份信息特 征提取模块, 对输入的音频提取 得到语音 身份信息特 征向量;
采用语音的内容信息特 征提取模块, 对输入的音频提取 得到语音内容信息特 征向量;
采用图像的面貌信息特征提取模块, 依 次将r张输入图像face1...facer提取得到逐帧
人脸面貌特征向量, 并将每张图像输入到人脸图像质量计算模块中, 计算得到每张输入图
像质量得分, 将r张图像的质量得分与r个逐帧人脸面貌特征向量的通道维度上进行拼接,
提取得到人脸 面貌特征向量;
采用图像的内容特征提取模块, 将r张输入图像在时间维度 上进行拼接, 得到拼接后的
图像拼接 向量; 将每张输入图像单独输入到人脸图像质量计算模块, 得到每张输入图像质
量得分, 将每张输入图像的质量得分复制扩展后与图像拼接 向量进行拼接和特征提取, 得
到人脸唇部内容特 征向量;
人脸图像质量计算模块, 将单张彩色人脸图像输入到卷积神经网络, 得到 图像质量得
分;
人脸检测与分组模块, 逐帧检测视频片段中的人脸, 给出每个人脸的矩阵信息, 将属于
同一个人 的人脸矩阵分为一组, 并对缺失人脸信息的帧进行人脸信息补全, 得到完整的人
脸矩阵序列;
唇形同步模块, 输入人脸唇部内容特征向量与语音内容信息特征向量, 利用余弦相似
度计算两个特 征向量的相似度, 得到唇 形同步得分;
说话唇动识别模块, 将人脸唇部 内容特征向量输入到一个或多个具有激活函数的全连
接层后, 再输入到带有Sigmo id激活函数的全连接层, 得到说话唇动得分;
音貌匹配模块, 输入人脸面貌信息特征向量与语音身份信息特征向量, 利用L1距离计
算两个特 征向量的距离, 得到音貌匹配得分;
先验数据库, 支持提前录入先验数据库及在使用中录入先验数据库, 在发言人跟踪过
程中优先使用先验数据库进行匹配。
2.根据权利要求1所述的基于多模态信息的发言人跟踪系统, 其特 征在于:
所述语音的身份信 息特征提取模块, 具体为: 对输入的音频, 经过梅尔滤波器提取网络
滤波器组特征v0; 将网络滤波器组特征v0输入到第一卷积神经网络中, 提取得到w1维的中间
向量v1, 对中间向量v1进行L2正则化, 通过c1个全连接层, 提取得到语音身份信息特征向量
embvid;
所述语音的内容信息特征提取模块, 具体为: 将中间向量v1进行L2正则化, 通过c2个全
连接层, 得到w2维的中间向量v2; 将中间向量v2通过c3个全连接层, 得到w3维的中间向量v3;
使用残差连接, 将中间向量v2和v3相加, 得到v4=v2+v3, 再通过c4个全连接层, 得到语音内容
信息特征向量embvct。
3.根据权利要求1所述的基于多模态信息的发言人跟踪系统, 其特 征在于:
所述图像的面貌信息特征提取模块, 具体为: 依次将r张输入图像face1...facer输入到
第二卷积神经网络(Inc eption‑V1)中, 提取得到w4维的中间向量
并进行L2正则化, 通过c5权 利 要 求 书 1/4 页
2
CN 115131405 A
2个全连接层, 提取得到w5维的特征向量
r张输入图像处理后将得到形状为(r, w5)的特征
向量zfid; 将每张输入图像facei单独输入到人脸图像质量计算模块中, 计算得到每张输入
图像质量得分qi;
r张输入图像得到形状为(r, 1)的质量得分向量q; 将质量得分向量q和特征向量zfid拼
接得到形状 为(r, w5+1)维的向量, 输入 到循环神经网络(LSTM)中, 计 算得到w5+1维的中间向
量z1; 将中间向量z1通过c6个全连接层, 得到综合r张输入图像的人脸 面貌特征向量embfid;
所述图像的内容特征提取模块, 具体为; 将r张输入图像在时间维度上进行拼接, 其他
维度保留, 得到(c, w*r, h)大小的向量, 其中, c表示输入图像的通道数, 若输入的是彩色图
像, 则c=3; 若输入的是灰度图, 则c=1; 其中, r表示输入图像张数; w表示输入图像宽度的
像素个数; h表示的是输入图像高度的像素个数, 拼接后的输入图像拼接向量 为x0;
将每张输入图像单独输入到人脸 图像质量计算模块, 得到形状为(r, 1)的质量得分向
量x1;
将形状为(r, 1)的质量得分向量x1复制拓展为形状为(1, w*r, h)的质量得分向量x2, x2
[1, i, j]=x1[i%w, 1], i∈[0, w*r), j∈[0, h); 将输入图像拼接向量x0与质量得分向量x2在
第一维度进行拼接, 得到形状为(c+1, w*r, h)的特 征向量x3;
将特征向量x3输入到第三卷积神经网络中, 提取得到w6维的特征向量, 记为x4; 将中间
向量x4进行L2归一 化, 得到内容特 征向量embfct。
4.根据权利要求1所述的基于多模态信息的发言人跟踪系统, 其特 征在于:
所述人脸图像质量计算模块, 将单张彩色人脸图像输入到第四卷积神经网络
(ResNet50), 得到w7维的中间向量v, 将此中间向量输入到带有Sigmoid激活函数 的全连接
层, 得到图像质量得分 scorequality∈(0, 1);
所述人脸检测与分组模块, 利用深度学习算法检测视频片段的每一帧中的所有人脸,
得到每个人脸的矩阵信息
表示第j帧中检测到的第i张人脸的矩阵信息; 根据相邻帧
的人脸矩阵信息的交并比将所有帧中属于同一个人的人脸矩阵分组, 若
与
的
交并比大于 设定的阈值, 则判定这两个人脸矩阵属于同一个人, 将 被划分到同一组中; 使用
线性插值法为缺 失人脸信息的帧根据相邻帧的人脸矩阵信息进行补 全; 根据补 全后的人脸
矩阵序列
裁剪得到人脸图像序列
5.根据权利要求1所述的基于多模态信息的发言人跟踪系统, 其特 征在于:
所述唇形同步模块, 输入人脸唇部内容特征向量embfct与语音内容信息特征向量
embvct, 利用余弦相似度计算两个特征向量的相似度, 即为唇形同步得分scorect, 其中
scorect∈[‑1, 1]; 得分越高表示越匹配;
所述说话唇动识别模块, 将人脸唇部内容特征向量embfct输入到带激活函数的全连接
层中, 得到w8维的中间向量a1; 将中间向量a1输入到带Sigmoid激活函数的全 连接层, 得到说
话唇动得分scoretalk∈(0, 1), 说话唇动得分越高说明计算得到的人脸唇部内容特征向量
所对应的人脸说话的可能性越高。
6.根据权利要求1所述的基于多模态信息的发言人跟踪系统, 其特 征在于:
所述音貌匹配模块, 输入人脸面貌信息特征向量embfid与语音身份信息特征向量
embvid, 利用L1距离计算两个特征向量的距离, 即为音貌匹配得分scoreid; 其中, scoreid≥权 利 要 求 书 2/4 页
3
CN 115131405 A
3
专利 一种基于多模态信息的发言人跟踪方法及系统
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:12上传分享