专利 基于Transformer与卷积神经网络的人脸识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210579576.2 (22)申请日 2022.05.26 (71)申请人山东浪潮超高清视频产业有限公司地址 250000 山东省济南市高新区浪潮路 1036号S06楼北一层西区 (72)发明人刘永辉　韩春港　韩继泽　杜浩　谢恩鹏　王志亮　 (74)专利代理机构济南泉城专利商标事务所 37218 专利代理师刘德 (51)Int.Cl. G06V 40/16(2022.01) G06V 10/40(2022.01) G06V 10/74(2022.01) G06V 10/764(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) (54)发明名称基于Transformer与卷积神经网络的人脸识别方法 (57)摘要一种基于Tran sformer与卷积神经网络的人脸识别方法，通过将裁剪后的人脸图像输入至该人脸识别模型中从而对人脸图像进行特征提取，在获取固定通道数的人脸特征向量后，进行特征匹配，将相似度高的人脸特征作为相同身份的人脸信息。该人脸识别模型是基于Transformer中最核心的self ‑attention机制结合卷积神经网络架构而构建的，并且引入了SE （通道注意力模块），在不显著增加模型复杂度的情况下，提高了人脸识别的准确性，有助于人脸识别技术在实际场景中的应用。权利要求书2页说明书4页附图3页 CN 114842538 A 2022.08.02 CN 114842538 A 1.一种基于Transformer与卷积神经网络的人脸识别方法，其特征在于，包括： a)基于IResNet网络结构及CoTNet网络中的self ‑atteention模块构建得到人脸识别模型，所述人脸识别模型依次由Stem模块、四个Block模块构成，每个Block模块依次由3 ×3 卷积操作、 self ‑atteention模块、 1×1卷积操作、 SE模块构成； b)将预先剪裁好的N ×N大小的人脸图像输入至人脸识别模型中的Stem模块中，输出得到高分辨率特征图； c)将高分辨率特征图输入到第一个Block模块中，输出得到特征图，将第一Block模块输出的特征图输入到第二个Block模块中，输出得到特征图，将第二个Block模块输出的特征图输入到第三个Block模块中，输出得到特征图，将第三个Block模块输出的特征图输入到第四个Bl ock模块中，输出得到特征图； d)将第四个Block模块输出的特征图输入全连接层中，输出得到512维的特征向量，以该特征向量作为人脸图像的唯一特征码； e)通过Circle Loss算法计算相似度来获取特征向量相应的身份识别信息。 2.根据权利要求1所述的基于Transformer与卷积神经网络的人脸识别方法，其特征在于：步骤a)中IResNet网络有四个Block模块，保留每个Block模块中的第一个3 ×3卷积操作，将CoTNet网络中的self ‑atteention模块替换每个Block模块中的第二个3 ×3卷积操作，每个Block模块的最后结合一SE模块。 3.根据权利要求1所述的基于Transformer与卷积神经网络的人脸识别方法，其特征在于：步骤b)中N的取值为112。 4.根据权利要求1所述的基于Transformer与卷积神经网络的人脸识别方法，其特征在于：步骤b)中Stem模块依次由卷积核大小为3的卷积层、 BN层及PReLu层构成。 5.根据权利要求1所述的基于Transformer与卷积神经网络的人脸识别方法，其特征在于， Block模块中self ‑atteention模块提取特征的方法为： c.1‑1)通过公式G(xi)＝RELU(BN(Conv3×3(xi)))计算得到输入特征的静态上下文信息G (xi)， xi为第i个Block模块中经3 ×3卷积操作后输出的特征图， i＝{1,2,3,4}， Conv3×3(·) 为卷积核大小为3 ×3的卷积操作， BN( ·)为批量归一化操作， RELU( ·)为RELU激活函数操作； c.1‑2)通过公式A＝[G( xi),Q]WθWδ计算得到注意力矩阵A，式中Q为每个空间位置的 query， Wθ为带有ReLU激活函数的1 ×1卷积， Wδ为不带ReLU激活函数的1 ×1卷积； c.1‑3)通过公式计算得到动态的上下文信息K，式中V为输入特征的特征映射； c.1‑4)将输入特征的静态上下文信息G(xi)与动态的上下文信息K进行融合得到self ‑ atteention特征图。 6.根据权利要求1所述的基于Transformer与卷积神经网络的人脸识别方法，其特征在于， SE模块的提取特征的方法为： c.2‑1)将通过公式计算输入到SE模块的特征图由H×W×C变为1×1×C大小的向量的压缩的特征图Zc，式中， H为输入到到S E模块的特权　利　要　求　书 1/2 页 2 CN 114842538 A 2征图的高度， W为输入到到S E模块的特征图的宽度， C为输入到到SE模块的特征图的通道数， FSq(·)为Squeeze操作， U c(i,j)为第c通道输入到SE模块的特征图的像素值， i为在H维度上的像素值， j为在W维度上的特征值， c＝{1,2， . ..， C}； c.2‑2)通过公式S＝Fex(Zc,W)＝σ(W2δ(W1Zc))计算得到激励后的特征图S，式中Fex(·) 为激励操作， σ 为Softmax操作， δ 为ReLU操作， W1与W2为全连接层的权重； c.2‑3)通过公式X＝FScale(U,S)＝SU计算得到SE模块处理完成的特征图X， FScale(·)为相乘计算。权　利　要　求　书 2/2 页 3 CN 114842538 A 3

专利 基于Transformer与卷积神经网络的人脸识别方法

专利基于Transformer与卷积神经网络的人脸识别方法