专利 模型训练方法、目标跟踪方法、装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210583640.4 (22)申请日 2022.05.25 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人陈子亮　 (74)专利代理机构北京易光知识产权代理有限公司 11596 专利代理师王姗姗　武晨燕 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/74(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06V 20/40(2022.01)G06T 7/246(2017.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称模型训练方法、目标跟踪方法、装置 (57)摘要本公开提供了一种模型训练方法、目标跟踪方法、装置，涉及人工智能技术领域，尤其涉及深度学习、图像处理、计算机视觉技术等领域，可应用于光学字符识别(Optical Character Recognition， OCR)等场景。具体实现方案为：根据图文数据对第一模型进行第一预训练，得到第一模型在第二预训练中加载的预训练参数，根据第一图像样本集合及第二图像样本集合，构建训练数据，根据训练数据和预训练参数对第一模型进行第二预训练，得到第二模型。采用本公开，提高了模型精度。权利要求书4页说明书12页附图6页 CN 114998678 A 2022.09.02 CN 114998678 A 1.一种模型训练方法，包括：根据图文数据对第一模型进行第一预训练，得到所述第一模型在第二预训练中加载的预训练参数；根据第一图像样本集合及第二图像样本集合，构建训练数据；根据所述训练数据和所述预训练参数对所述第一模型进行第二预训练，得到第二模型。 2.根据权利要求1所述的方法，其中，所述预训练参数，用于表征由所述图文数据得到的目标对象类别。 3.根据权利要求1或2所述的方法，其中，所述根据图文数据对第一模型进行第一预训练，得到所述第一模型在第二预训练中加载的预训练参数，包括：从所述图文数据中提取第一图像数据及与所述第一图像数据对应的第一文本数据；将所述第一图像数据及所述第一文本数据输入所述第一模型；根据所述第一图像数据及所述第一文本数据之间的映射关系进行所述第一预训练，得到所述预训练参数。 4.根据权利要求3所述的方法，其中，所述根据所述第一图像数据及所述第一文本数据之间的映射关系进行所述第一预训练，得到所述预训练参数，包括：在所述第一模型中，根据所述第一图像数据及所述第一文本数据之间的映射关系得到第一预训练目标；根据所述第一预训练目标进行所述第一预训练，对所述第一模型中的映射模块进行参数调整，得到所述预训练参数。 5.根据权利要求4所述的方法，其中，在所述第一模型中，根据所述第一图像数据及所述第一文本数据之间的映射关系得到第一预训练目标，包括：将所述第一图像数据输入所述第一模型的第一处理分支，对所述第一图像数据进行特征提取，得到第一图像特征；将所述第一文本数据输入所述第一模型的第二处理分支，对所述第一文本数据进行特征提取，得到第一文本特征；将所述第一图像特征及所述第一文本特征分别进行映射处理，并映射到同一个目标特征空间中，得到在所述同一个目标特征空间中所述第一图像数据及所述第一文本数据之间的映射关系；根据在所述同一个目标特征空间中所述第一图像数据及所述第一文本数据之间的映射关系，得到所述第一预训练目标。 6.根据权利要求5所述的方法，其中，所述根据所述训练数据和所述预训练参数对所述第一模型进行第二预训练，得到第二模型，包括：从所述训练数据中提取第一图像样本数据及第二图像样本数据；将所述第一图像样本数据及所述第二图像样本数据输入所述第一模型，在所述第一模型中的所述映射模块加载所述预训练参数的情况下对所述第一模型进行所述第二预训练，得到所述第二模型。 7.根据权利要求6所述的方法，还包括：通过在所述第一模型中的所述映射模块加载所述预训练参数，得到先验信息；权　利　要　求　书 1/4 页 2 CN 114998678 A 2在所述第一模型中，根据所述先验信息确定所述第一图像样本数据与所述第二图像样本数据中的待跟踪对象类别；其中，所述先验信息包括：通过所述同一个目标特征空间中所述第一图像数据及所述第一文本数据之间的映射关系所指示的类别标签。 8.根据权利要求7所述的方法，其中，所述将所述第一图像样本数据及所述第二图像样本数据输入所述第一模型，在所述第一模型中的所述映射模块加载所述预训练参数的情况下对所述第一模型进行所述第二预训练，得到所述第二模型，包括：将所述第一图像样本数据输入所述第一模型的第一处理分支，对所述第一图像样本数据进行特征提取，得到第一图像样本特征；将所述第二图像样本数据输入所述第一模型的第二处理分支，对所述第二图像样本数据进行特征提取，得到第二图像样本特征；将所述第一图像样本特征及所述第二图像样本特征分别通过所述映射模块进行映射处理，并映射到所述同一个目标特征空间中；在所述同一个目标特征空间中，根据所述先验信息对所述第一图像样本特征及所述第二图像样本特征中用于表征所述待跟踪对象类别的特征进行相似度匹配，得到匹配结果；根据所述匹配结果得到第二预训练目标，根据所述第二预训练目标进行所述第二预训练，得到所述第二模型。 9.一种目标跟踪方法，包括：从视频流数据中获取第一图像帧及第N图像帧，所述 N为大于2的正整数；将所述第一图像帧及所述第N图像帧输入用于目标跟踪的第二模型，所述第二模型通过加载预训练参数进行模型训练所得到；根据所述第二模型，对所述第一图像帧及所述第N图像帧中待跟踪对象的类别进行识别，得到识别结果；根据所述识别结果进行目标跟踪。 10.根据权利要求9所述的方法，其中，所述预训练参数，用于表征由图文数据得到的目标对象类别。 11.根据权利要求9或10所述的方法，其中，所述根据所述识别结果进行目标跟踪，包括：根据所述识别结果，确定所述第一图像帧及所述第N图像帧中包括的同一个待跟踪对象；将所述同一个待跟踪对象作为目标对象，根据所述目标对象的位置变化进行目标跟踪，得到所述目标对象对应的当前目标位置。 12.一种模型训练装置，包括：第一训练模块，用于根据图文数据对第一模型进行第一预训练，得到所述第一模型在第二预训练中加载的预训练参数；第一构建模块，用于根据第一图像样本集合及第二图像样本集合，构建训练数据；第二训练模块，用于根据所述训练数据和所述预训练参数对所述第一模型进行第二预训练，得到第二模型。 13.根据权利要求12所述的装置，其中，所述预训练参数，用于表征由所述图文数据得权　利　要　求　书 2/4 页 3 CN 114998678 A 3

专利 模型训练方法、目标跟踪方法、装置

专利模型训练方法、目标跟踪方法、装置