(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210615979.8
(22)申请日 2022.05.31
(71)申请人 上海高德威智能交通系统有限公司
地址 201821 上海市嘉定区云谷路59 9弄6
号620室J 1452
(72)发明人 李瞻宁 赵卫强
(74)专利代理 机构 北京博思佳知识产权代理有
限公司 1 1415
专利代理师 杨春香
(51)Int.Cl.
G06V 10/46(2022.01)
G06V 10/74(2022.01)
G06V 10/762(2022.01)
G06V 10/764(2022.01)
(54)发明名称
自动化诊断数据的方法、 装置及电子设备
(57)摘要
本申请实施例提供了自动化诊断数据的方
法、 装置及电子设备。 本申请实施例中, 基于第一
图像集驱动, 全自动化实现模型训练过程中数据
的诊断, 提高模型性能; 进一步地, 在本实施例
中, 根据训练集、 测试集的特征数据分布, 以及自
动分析模型潜在问题, 来自动调整训练方案, 无
需人工介入。
权利要求书3页 说明书13页 附图5页
CN 114863137 A
2022.08.05
CN 114863137 A
1.一种自动化诊断数据的方法, 其特 征在于, 该 方法应用于电子设备,
从第一图像集中选择出用于满足模型训练要求的图像, 得到第二图像集; 对第二图像
集中的图像进行分类, 得到训练集和测试集; 训练集和测试集具有相同的至少一个特征类
型;
确定目标特征类型; 所述训练集在所述目标特征类型下的特征数据分布与 所述测试集
在所述目标 特征类型下的特征数据分布不满足预设匹配条件;
依据目标特征类型, 调整模型训练方案; 调整后的训练方案, 用于控制每次进行模型训
练的训练数据在所述目标特征类型下的特征数据分布与测试集在所述目标特征类型下的
特征数据分布满足预设匹配条件;
利用调整后的训练方案完成模型训练, 得到候选模型; 利用测试集对候选模型进行测
试, 若达到测试要求, 将候选模型确定为 目标模型, 否则, 确定达不到所述测试要求的至少
一个问题, 调整训练方案以消除该至少一个 问题, 返回所述利用 调整后的训练方案完成模
型训练的步骤。
2.根据权利要求1所述的方法, 其特征在于, 从第 一图像集中选择出用于满足模型训练
要求的图像包括:
诊断第一图像集中是否存在不满足设定图像要求的图像, 从所述第 一图像集中过滤掉
不满足所述设定图像要求的图像, 得到第三图像集;
从第三图像集中剔除影响模型训练的图像, 得到所述第二图像集。
3.根据权利要求2所述的方法, 其特征在于, 所述影响模型训练 的图像通过以下步骤确
定:
通过已训练的第 一深度模型获得第 三图像集对应的特征向量, 判断所述特征向量是否
属于开集,
若是, 将第三图像集中的图像分为K份, 针对所述K份中的每L份, 利用该L份训练图像诊
断模型, 并预测剩下的K ‑L份中的图像, 若发现任一图像的预测结果与该图像的标定结果不
一致, 则确定该图像为影响模型训练的图像;
若否, 针对所述第三图像集中每一图像, 使用已存储的至少两个领域模型对该图像进
行识别, 若识别结果不匹配, 和/或,其中一个识别结果与图像的标定结果不匹配, 则确定该
图像为影响模型训练的图像。
4.根据权利要求1所述的方法, 其特 征在于, 所述确定目标 特征类型包括:
针对每一特征类型, 计算用于表征所述训练集和所述测试集在该特征类型下的特征数
据分布一 致性参数;
若所述特征数据分布一致性参数小于设定阈值, 则确定该特征类型为目标特征类型;
其中, 所述特征数据分布一致性参数小于设定阈值, 表示所述训练集和测试集在该特征类
型下的特征数据分布不满足预设匹配条件。
5.根据权利要求1所述的方法, 其特 征在于, 所述特 征类型包括至少一个数据属性;
所述依据目标 特征类型, 调整模型训练方案包括:
针对每一目标特征类型中的每一数据属性, 若该数据属性的类型为第一类型, 所述第
一类型用于指示该数据属性对应的特征数据的改变, 与从训练集中采样与该数据属性对应
的训练数据的采样率有关, 则依据训练集在该目标特征类型下的特征数据分布与测试集在权 利 要 求 书 1/3 页
2
CN 114863137 A
2该目标特征类型下的特征数据分布不满足预设匹配条件的情况, 调整 所述训练方案中已记
录的所述采样率;
若该数据属性的类型为第 二类型, 所述第 二类型用于指示对该数据属性对应的特征数
据进行自适应扩增, 则通过自动搜索方式搜索该数据属 性对应的超参数, 在所述训练方案
中记录该数据属 性对应的训练数据和所述超参数相结合作为模型训练的训练数据进行模
型训练。
6.根据权利要求5所述的方法, 其特征在于, 所述通过自动搜索方式搜索该数据属性对
应的超参数包括:
针对该数据属性, 对所述训练集中各训练数据具有的该数据属性对应的特征数据进行
排序, 得到训练集序列, 以及对所述测试集中各测试数据具有的该数据属 性对应的特征数
据进行排序, 得到测试集序列;
在所述训练集序列中确定S1个采样点, 针对每一采样点, 对所述训练集序列中与该采
样点相关联的特征数据进行指定运算, 得到该采样点对应的运算结果, 将各采样点对应的
运算结果组成训练采样序列; 以及, 在所述测试集序列中确定S2个采样点, 针对每一采样
点, 对所述测试集序列中与该采样点相关联 的特征数据进行指定运算, 得到该采样点对应
的运算结果, 将各采样点对应的运 算结果组成测试采样序列;
依据所述训练采样序列和所述测试采样序列之间的距离, 并使用模拟退火算法寻找数
据属性对应的超参数。
7.根据权利要求1所述的方法, 其特征在于, 所述确定达不到所述测试要求的至少一个
问题包括:
针对每一特征类型, 通过比较所述测试集在该特征类型下的标定特征数据分布与 经由
所述候选模型测试出的所述测试集在该特征类型下的测试特征数据分布, 确定至少一个错
误区间范围, 依据确定出的错误区间范围, 确定是否存在该特征类型对应的显著问题区间;
其中, 当任一 错误区间范围满足预设错 误要求, 则确定该错 误区间范围为显著问题区间;
针对每一特征类型下的每一显著问题区间, 若该显著问题区间中的特征数据分布满足
预设合理要求, 则依据所述训练集中训练数据的数量, 和/或训练集和错误集在该显著问题
区间内的特征数据分布的差异, 确定该特征类型下该显著问题 区间对应的错误原因; 所述
错误集至少由测试集中出现错 误的测试 数据组成;
依据各特征类型下各显著问题区间对应的错误原 因, 确定达不到所述测试要求的至少
一个问题。
8.根据权利要求7所述的方法, 其特征在于, 所述依据各特征类型下各显著问题区间对
应的错误原因, 确定 达不到所述测试要求的至少一个问题包括:
将确定出的错 误原因进行排序, 得到错 误原因序列;
若所述错误原 因序列中存在对应第 一类特征类型的错误原因, 则对所述错误原因序列
进行调整, 以删除所述错误原因序列中对应第二类特征类型 的错误原因; 所述第一类特征
类型仅包含一个数据属 性, 所述第二类特征类型包括至少 两个不同的数据属 性、 且其中一
个数据属性与第一类特 征类型包 含数据属性相同;
从调整后的错 误原因序列中选择至少一个错 误原因, 作为所述至少一个问题。
9.一种自动化诊断数据的装置, 其特 征在于, 该装置应用于电子设备, 包括:权 利 要 求 书 2/3 页
3
CN 114863137 A
3
专利 自动化诊断数据的方法、装置及电子设备
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:46上传分享