专利 人脸识别模型训练方法和装置、电子设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210592901.9 (22)申请日 2022.05.27 (71)申请人北京爱奇艺科技有限公司地址 100080 北京市海淀区北一街2号11层 1101 (72)发明人范音　 (74)专利代理机构北京华夏泰和知识产权代理有限公司 1 1662 专利代理师王卫忠 (51)Int.Cl. G06V 40/16(2022.01) G06V 10/774(2022.01) G06V 10/762(2022.01) G06V 10/74(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 16/215(2019.01) (54)发明名称人脸识别模型训练方法和装置、电子设备和存储介质 (57)摘要本申请涉及一种人脸识别模型训练方法和装置、电子设备和存储介质。其中，方法包括：获取用于进行模型训练的多个候选数据集，以及确定与每个候选数据集对应的人物ID；将多个候选数据集输入待训练模型中进行训练，得到与每个人物ID对应的误识别概率，并得到训练后模型；按照误识别概率，确定所有人物ID之间的目标重复关系；在目标重复关系与历史重复关系相同，且确定训练后模型满足预设损失要求的情况下，判断训练后模型已完成训练。本申请实施例提供的该方法，可以有效解决相关技术中训练人脸识别模型时因为无法确定重复人物ID导致用于训练的人脸数据存在噪声，进而会对人脸识别模型的训练造成影响的技术问题。权利要求书3页说明书13页附图4页 CN 114973369 A 2022.08.30 CN 114973369 A 1.一种人脸识别模型训练方法，其特征在于，包括：获取用于进行模型训练的多个候选数据集，以及确定与每个所述候选数据集对应的人物ID，其中，对于每个所述候选数据集，所述候选数据集中包括至少一个影像信息，且所述影像信息中包括所述候选数据集对应的人物ID所指示的候选人物的人像；将所述多个候选数据集输入待训练模型中进行训练，得到与每个所述人物ID对应的误识别概率，并得到训练后模型，其中，所述误识别概率用于指示第一人物ID对应的第一候选数据集中的影像信息被识别为对应于剩余人物 ID的概率，所述第一人物ID为所有所述人物 ID中的任一个所述人物 ID，所述剩余人物 ID为所有所述人物ID中除所述第一人物ID之外的其他所述人物ID；按照所述误识别概率，确定所有所述人物ID之间的目标重复关系，其中，重复关系用于指示所有所述人物ID中的任意两个所述人物ID是否对应于同一个所述候选人物；在所述目标重复关系与历史重复关系相同，且确定所述训练后模型满足预设损失要求的情况下，判断所述训练后模型已完成训练，其中，所述历史重复关系为训练得到所述待训练模型时的所有所述人物ID之间的所述重复关系。 2.根据权利要求1所述的方法，其特征在于，在所述将所述多个候选数据集输入待训练模型中进行训练，得到与每个所述人物ID对应的误识别概率，并得到训练后模型之前，所述方法还包括：确定出与每个所述候选数据集对应的聚类中心特征，并得到所述聚类中心特征与所述人物ID之间的对应关系；计算任两个所述聚类中心特征之间的聚类中心特征相似度；在所有所述聚类中心特征相似度中，确定出在预设阈值区间内的所有目标聚类中心特征相似度；通过将所有所述目标聚类中心特征相似度中，每个所述目标聚类中心特征相似度对应的两个所述人物ID确定为同一人物ID，得到初级重复关系；按照所述初级重复关系，并通过所述多个候选数据集对初始模型进行训练，得到预训练模型，并将所述预训练模型作为所述待训练模型。 3.根据权利要求2所述的方法，其特征在于，所述确定出与每个所述候选数据集对应的聚类中心特征，包括：确定出所述候选数据集中的所有所述影像信息；通过聚类算法对所有所述影像信息进行聚类计算，得到所述候选数据集对应的所述聚类中心特征。 4.根据权利要求2所述的方法，其特征在于，在所述按照所述误识别概率，确定所有所述人物ID之间的目标重复关系之后，所述方法还包括：在所述目标重复关系存在未包含于所述历史重复关系的新的重复子关系，或所述训练后模型不满足所述预设损失要求的情况下，将所述训练后模型作为所述待训练模型，并执行用于跳转至步骤所述将所述多个候选数据集输入待训练模型中进行训练，得到与每个所述候选数据集对应的误识别概率，并得到训练后模型的跳转操作，其中，每个重复子关系具有唯一对应的ID组，且所述 ID组中包括的至少两个所述人物ID被确定为同一人物ID。 5.根据权利要求2所述的方法，其特征在于，在所述按照所述初级重复关系，并通过所权　利　要　求　书 1/3 页 2 CN 114973369 A 2述多个候选数据集对初始模型进行训练，得到所述待训练模型与所述将所述多个候选数据集输入待训练模型中进行训练，得到与每个所述人物ID对应的误识别概率之间，所述方法还包括：将所述初级重复关系初始化为用于指示任意两个所述人物ID之间不存在重复的初始重复关系；在所述将所述多个候选数据集输入待训练模型中进行训练，得到与每个所述人物ID对应的误识别概率之前，所述方法还包括：将所有所述误识别概率初始化为0。 6.根据权利要求1所述的方法，其特征在于，所述按照所述误识别概率，确定所有所述人物ID之间的目标重复关系，包括：通过全连接层，确定出所述多个候选数据集中的每个所述候选数据集的人脸特征信息；基于所述人脸特征信息，确定出所有所述人物ID中任意两个互不相同的所述人物ID之间的全连接层类心相似度；在基于所述误识别概率以及所述全连接层类心相似度确定所有所述人物ID之间存在新的重复子关系的情况下，按照所述新的重复子关系对所述历史重复关系进行更新，得到所述目标重复关系，其中，所述新的重复子关系是未包含于所述历史重复关系中的重复子关系，每个所述重复子关系具有唯一对应的ID组，且所述ID组中包括的至少两个所述人物 ID为同一人物ID。 7.根据权利要求6所述的方法，其特征在于，所述基于所述人脸特征信息，确定出所有所述人物ID中任意两个互不相同的所述人物ID之间的全连接层类心相似度，包括：确定出第二候选数据集的第二人脸特征信息以及第三候选数据集的第三人脸特征信息，其中，所述第二候选数据集对应于第二人物ID，所述第三候选数据集对应于第三人物 ID，所述第二人物 ID与所述第三人物 ID为所有所述人物 ID中任意两个互不相同的所述人物 ID；通过确定所述第二人脸特征信息与所述第三人脸特征信息之间的相似度，得到所述第二人物ID与所述第三人物ID的全连接层类心相似度。 8.根据权利要求7所述的方法，其特征在于，所述基于所述误识别概率以及所述全连接层类心相似度确定所述人物ID之间存在新重复子关系，包括：在所述第二候选数据集与所述第三候选数据集的全连接层类心相似度大于或等于预设的相似度阈值，第一误识别概率和/或第二误识别概率满足预设的误识别要求，且所述历史重复关系不包括用于指示所述第二人物ID与所述第三人物ID为同一人物ID的目标重复子关系的情况下，将所述目标重复子关系作为所述新的重复子关系，其中，所述第一误识别概率用于指示第二候选数据集中影像信息被识别为对应于第三人物 ID的概率，所述第二误识别概率用于指示第三候选数据集中的影像信息被识别为对应于第二人物ID的概率。 9.根据权利要求1所述的方法，其特征在于，所述确定所述训练后模型满足预设损失要求，包括：在所有所述影像信息中确定出所述待训练模型误识别的目标影像信息；在所述目标影像信息为被所述待训练模型误识别为所有所述人物ID中除目标人物ID权　利　要　求　书 2/3 页 3 CN 114973369 A 3

专利 人脸识别模型训练方法和装置、电子设备和存储介质

专利人脸识别模型训练方法和装置、电子设备和存储介质