(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210583640.4
(22)申请日 2022.05.25
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 陈子亮
(74)专利代理 机构 北京易光知识产权代理有限
公司 11596
专利代理师 王姗姗 武晨燕
(51)Int.Cl.
G06V 10/774(2022.01)
G06V 10/74(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)
G06V 20/40(2022.01)G06T 7/246(2017.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
模型训练方法、 目标跟踪方法、 装置
(57)摘要
本公开提供了一种模 型训练方法、 目标跟踪
方法、 装置, 涉及人工智能技术领域, 尤其涉及深
度学习、 图像处理、 计算机视觉技术等领域, 可应
用于光学字符识别(Optical Character
Recognition, OCR)等场景。 具体实现方案为: 根
据图文数据对第一模型进行第一预训练, 得到第
一模型在第二预训练中加载的预训练参数, 根据
第一图像样 本集合及第二图像样 本集合, 构建训
练数据, 根据训练数据和预训练参数对第一模型
进行第二预训练, 得到第二模型。 采用本公开, 提
高了模型精度。
权利要求书4页 说明书12页 附图6页
CN 114998678 A
2022.09.02
CN 114998678 A
1.一种模型训练方法, 包括:
根据图文数据对第 一模型进行第 一预训练, 得到所述第 一模型在第 二预训练中加载的
预训练参数;
根据第一图像样本集 合及第二图像样本集 合, 构建训练数据;
根据所述训练数据和所述预训练参数对所述第一模型进行第二预训练, 得到第二模
型。
2.根据权利要求1所述的方法, 其中, 所述预训练参数, 用于表征由所述图文数据得到
的目标对象类别。
3.根据权利要求1或2所述的方法, 其中, 所述根据图文数据对第一模型进行第一预训
练, 得到所述第一模型在第二预训练中加载的预训练参数, 包括:
从所述图文数据中提取第一图像数据及与所述第一图像数据对应的第一文本数据;
将所述第一图像数据及所述第一文本数据输入所述第一模型;
根据所述第 一图像数据及所述第 一文本数据之间的映射关系 进行所述第 一预训练, 得
到所述预训练参数。
4.根据权利要求3所述的方法, 其中, 所述根据所述第 一图像数据及所述第 一文本数据
之间的映射关系进行 所述第一预训练, 得到所述预训练参数, 包括:
在所述第一模型中, 根据所述第 一图像数据及所述第 一文本数据之间的映射关系得到
第一预训练目标;
根据所述第 一预训练目标进行所述第 一预训练, 对所述第 一模型中的映射模块进行参
数调整, 得到所述预训练参数。
5.根据权利要求4所述的方法, 其中, 在所述第一模型中, 根据所述第一图像数据及所
述第一文本数据之间的映射关系得到第一预训练目标, 包括:
将所述第一图像数据输入所述第 一模型的第 一处理分支, 对所述第 一图像数据进行特
征提取, 得到第一图像特 征;
将所述第一文本数据输入所述第 一模型的第 二处理分支, 对所述第 一文本数据进行特
征提取, 得到第一文本特 征;
将所述第一图像特征及所述第 一文本特征分别进行映射处理, 并 映射到同一个目标特
征空间中, 得到在所述同一个目标特征空间中所述第一图像数据及所述第一文本数据之间
的映射关系;
根据在所述同一个目标特征空间中所述第一图像数据及所述第一文本数据之间的映
射关系, 得到所述第一预训练目标。
6.根据权利要求5所述的方法, 其中, 所述根据所述训练数据和所述预训练参数对所述
第一模型进行第二预训练, 得到第二模型, 包括:
从所述训练数据中提取第一图像样本数据及第二图像样本数据;
将所述第一图像样本数据及所述第 二图像样本数据输入所述第 一模型, 在所述第 一模
型中的所述映射模块加载所述预训练参数的情况下对所述第一模型进 行所述第二预训练,
得到所述第二模型。
7.根据权利要求6所述的方法, 还 包括:
通过在所述第一模型中的所述映射模块加载 所述预训练参数, 得到先验信息;权 利 要 求 书 1/4 页
2
CN 114998678 A
2在所述第一模型中, 根据所述先验信 息确定所述第 一图像样本数据与 所述第二图像样
本数据中的待跟踪对象类别;
其中, 所述先验信息包括: 通过所述同一个目标特征空间中所述第一图像数据及所述
第一文本数据之间的映射关系所指示的类别标签。
8.根据权利要求7所述的方法, 其中, 所述将所述第 一图像样本数据及所述第 二图像样
本数据输入所述第一模型, 在所述第一模型中的所述映射模块加载所述预训练参数的情况
下对所述第一模型进行 所述第二预训练, 得到所述第二模型, 包括:
将所述第一图像样本数据输入所述第 一模型的第 一处理分支, 对所述第 一图像样本数
据进行特征提取, 得到第一图像样本特 征;
将所述第二图像样本数据输入所述第 一模型的第 二处理分支, 对所述第 二图像样本数
据进行特征提取, 得到第二图像样本特 征;
将所述第一图像样本特征及所述第二图像样本特征分别通过所述映射模块进行映射
处理, 并映射到所述同一个目标 特征空间中;
在所述同一个目标特征空间中, 根据 所述先验信 息对所述第 一图像样本特征及所述第
二图像样本特 征中用于表征 所述待跟踪对象类别的特 征进行相似度匹配, 得到匹配结果;
根据所述匹配结果得到第 二预训练目标, 根据所述第 二预训练目标进行所述第 二预训
练, 得到所述第二模型。
9.一种目标跟踪方法, 包括:
从视频流数据中获取第一图像帧及第N图像帧, 所述 N为大于2的正整数;
将所述第一图像帧及所述第N图像帧输入用于目标跟踪的第二模型, 所述第二模型通
过加载预训练参数进行模型训练所 得到;
根据所述第二模型, 对所述第一图像帧及所述第N图像帧中待跟踪对象的类别进行识
别, 得到识别结果;
根据所述识别结果进行目标跟踪。
10.根据权利要求9所述的方法, 其中, 所述预训练参数, 用于表征由图文数据得到的目
标对象类别。
11.根据权利要求9或10所述的方法, 其中, 所述根据所述识别结果进行目标跟踪, 包
括:
根据所述识别结果, 确定所述第一图像帧及所述第N图像帧中包括的同一个待跟踪对
象;
将所述同一个待跟踪对象作为目标对象, 根据所述目标对象的位置变化进行目标跟
踪, 得到所述目标对象对应的当前目标位置 。
12.一种模型训练装置, 包括:
第一训练模块, 用于根据图文数据对第一模型进行第一预训练, 得到所述第一模型在
第二预训练中加载的预训练参数;
第一构建模块, 用于根据第一图像样本集 合及第二图像样本集 合, 构建训练数据;
第二训练模块, 用于根据所述训练数据和所述预训练参数对所述第 一模型进行第 二预
训练, 得到第二模型。
13.根据权利要求12所述的装置, 其中, 所述预训练参数, 用于表征由所述图文数据得权 利 要 求 书 2/4 页
3
CN 114998678 A
3
专利 模型训练方法、目标跟踪方法、装置
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:54上传分享