专利 一种基于多模态信息的发言人跟踪方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210792440.X (22)申请日 2022.07.07 (71)申请人沈阳航空航天大学地址 110136 辽宁省沈阳市道义经济开发区道义南大街37号申请人中国人民大学 (72)发明人张德园　刘桃　范胜旭　田健鲲　杜小勇　 (74)专利代理机构沈阳东大知识产权代理有限公司 21109 专利代理师李在川 (51)Int.Cl. G06T 7/246(2017.01) G06V 10/10(2022.01) G06V 10/20(2022.01)G06V 10/62(2022.01) G06V 10/74(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 40/16(2022.01) G10L 25/51(2013.01) G10L 25/78(2013.01) (54)发明名称一种基于多模态信息的发言人跟踪方法及系统 (57)摘要本发明公开了一种基于多模态信息的发言人跟踪方法及系统，涉及发言人跟踪领域。可应用于线下会议或线上会议的在线的发言人跟踪任务，能够快速、准确地定位发言人，给出发言人特写；也可用于在提供的视频中标注出视频每个部分中的发言人的非在线任务。在同一画面出现多个人脸且每个人轮流交替发言的情况下，利用输入的图像及对应的音频信息计算出图像中每个人脸的发言唇动得分、音貌匹配得分以及唇形同步得分，并根据图像中的每个人脸得分定位具体发言人。同时支持提前录入注册配对的人声人脸对，并且支持在使用过程中将配对置信度高的人声人脸对录入到先验数据库中。权利要求书4页说明书11页附图4页 CN 115131405 A 2022.09.30 CN 115131405 A 1.一种基于多模态信息的发言人跟踪系统，其特征在于：所述系统包括：语音的身份信息特征提取模块、语音的内容信息特征提取模块、图像的面貌信息特征提取模块、图像的内容特征提取模块、人脸图像质量计算模块、人脸检测与分组模块、唇形同步模块、说话唇动识别模块、音貌匹配模块及先验数据库；采用语音的身份信息特征提取模块，对输入的音频提取得到语音身份信息特征向量；采用语音的内容信息特征提取模块，对输入的音频提取得到语音内容信息特征向量；采用图像的面貌信息特征提取模块，依次将r张输入图像face1...facer提取得到逐帧人脸面貌特征向量，并将每张图像输入到人脸图像质量计算模块中，计算得到每张输入图像质量得分，将r张图像的质量得分与r个逐帧人脸面貌特征向量的通道维度上进行拼接，提取得到人脸面貌特征向量；采用图像的内容特征提取模块，将r张输入图像在时间维度上进行拼接，得到拼接后的图像拼接向量；将每张输入图像单独输入到人脸图像质量计算模块，得到每张输入图像质量得分，将每张输入图像的质量得分复制扩展后与图像拼接向量进行拼接和特征提取，得到人脸唇部内容特征向量；人脸图像质量计算模块，将单张彩色人脸图像输入到卷积神经网络，得到图像质量得分；人脸检测与分组模块，逐帧检测视频片段中的人脸，给出每个人脸的矩阵信息，将属于同一个人的人脸矩阵分为一组，并对缺失人脸信息的帧进行人脸信息补全，得到完整的人脸矩阵序列；唇形同步模块，输入人脸唇部内容特征向量与语音内容信息特征向量，利用余弦相似度计算两个特征向量的相似度，得到唇形同步得分；说话唇动识别模块，将人脸唇部内容特征向量输入到一个或多个具有激活函数的全连接层后，再输入到带有Sigmo id激活函数的全连接层，得到说话唇动得分；音貌匹配模块，输入人脸面貌信息特征向量与语音身份信息特征向量，利用L1距离计算两个特征向量的距离，得到音貌匹配得分；先验数据库，支持提前录入先验数据库及在使用中录入先验数据库，在发言人跟踪过程中优先使用先验数据库进行匹配。 2.根据权利要求1所述的基于多模态信息的发言人跟踪系统，其特征在于：所述语音的身份信息特征提取模块，具体为：对输入的音频，经过梅尔滤波器提取网络滤波器组特征v0；将网络滤波器组特征v0输入到第一卷积神经网络中，提取得到w1维的中间向量v1，对中间向量v1进行L2正则化，通过c1个全连接层，提取得到语音身份信息特征向量 embvid；所述语音的内容信息特征提取模块，具体为：将中间向量v1进行L2正则化，通过c2个全连接层，得到w2维的中间向量v2；将中间向量v2通过c3个全连接层，得到w3维的中间向量v3；使用残差连接，将中间向量v2和v3相加，得到v4＝v2+v3，再通过c4个全连接层，得到语音内容信息特征向量embvct。 3.根据权利要求1所述的基于多模态信息的发言人跟踪系统，其特征在于：所述图像的面貌信息特征提取模块，具体为：依次将r张输入图像face1...facer输入到第二卷积神经网络(Inc eption‑V1)中，提取得到w4维的中间向量并进行L2正则化，通过c5权　利　要　求　书 1/4 页 2 CN 115131405 A 2个全连接层，提取得到w5维的特征向量 r张输入图像处理后将得到形状为(r， w5)的特征向量zfid；将每张输入图像facei单独输入到人脸图像质量计算模块中，计算得到每张输入图像质量得分qi； r张输入图像得到形状为(r， 1)的质量得分向量q；将质量得分向量q和特征向量zfid拼接得到形状为(r， w5+1)维的向量，输入到循环神经网络(LSTM)中，计算得到w5+1维的中间向量z1；将中间向量z1通过c6个全连接层，得到综合r张输入图像的人脸面貌特征向量embfid；所述图像的内容特征提取模块，具体为；将r张输入图像在时间维度上进行拼接，其他维度保留，得到(c， w*r， h)大小的向量，其中， c表示输入图像的通道数，若输入的是彩色图像，则c＝3；若输入的是灰度图，则c＝1；其中， r表示输入图像张数； w表示输入图像宽度的像素个数； h表示的是输入图像高度的像素个数，拼接后的输入图像拼接向量为x0；将每张输入图像单独输入到人脸图像质量计算模块，得到形状为(r， 1)的质量得分向量x1；将形状为(r， 1)的质量得分向量x1复制拓展为形状为(1， w*r， h)的质量得分向量x2， x2 [1， i， j]＝x1[i％w， 1]， i∈[0， w*r)， j∈[0， h)；将输入图像拼接向量x0与质量得分向量x2在第一维度进行拼接，得到形状为(c+1， w*r， h)的特征向量x3；将特征向量x3输入到第三卷积神经网络中，提取得到w6维的特征向量，记为x4；将中间向量x4进行L2归一化，得到内容特征向量embfct。 4.根据权利要求1所述的基于多模态信息的发言人跟踪系统，其特征在于：所述人脸图像质量计算模块，将单张彩色人脸图像输入到第四卷积神经网络 (ResNet50)，得到w7维的中间向量v，将此中间向量输入到带有Sigmoid激活函数的全连接层，得到图像质量得分 scorequality∈(0， 1)；所述人脸检测与分组模块，利用深度学习算法检测视频片段的每一帧中的所有人脸，得到每个人脸的矩阵信息表示第j帧中检测到的第i张人脸的矩阵信息；根据相邻帧的人脸矩阵信息的交并比将所有帧中属于同一个人的人脸矩阵分组，若与的交并比大于设定的阈值，则判定这两个人脸矩阵属于同一个人，将被划分到同一组中；使用线性插值法为缺失人脸信息的帧根据相邻帧的人脸矩阵信息进行补全；根据补全后的人脸矩阵序列裁剪得到人脸图像序列 5.根据权利要求1所述的基于多模态信息的发言人跟踪系统，其特征在于：所述唇形同步模块，输入人脸唇部内容特征向量embfct与语音内容信息特征向量 embvct，利用余弦相似度计算两个特征向量的相似度，即为唇形同步得分scorect，其中 scorect∈[‑1， 1]；得分越高表示越匹配；所述说话唇动识别模块，将人脸唇部内容特征向量embfct输入到带激活函数的全连接层中，得到w8维的中间向量a1；将中间向量a1输入到带Sigmoid激活函数的全连接层，得到说话唇动得分scoretalk∈(0， 1)，说话唇动得分越高说明计算得到的人脸唇部内容特征向量所对应的人脸说话的可能性越高。 6.根据权利要求1所述的基于多模态信息的发言人跟踪系统，其特征在于：所述音貌匹配模块，输入人脸面貌信息特征向量embfid与语音身份信息特征向量 embvid，利用L1距离计算两个特征向量的距离，即为音貌匹配得分scoreid；其中， scoreid≥权　利　要　求　书 2/4 页 3 CN 115131405 A 3

专利 一种基于多模态信息的发言人跟踪方法及系统

专利一种基于多模态信息的发言人跟踪方法及系统