(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210589562.9
(22)申请日 2022.05.26
(71)申请人 北京三快在线科技有限公司
地址 100080 北京市海淀区北四环西路9号
2106-030
(72)发明人 阮颖颖 马潮 曹佐
(74)专利代理 机构 北京曼威知识产权代理有限
公司 11709
专利代理师 王宏财
(51)Int.Cl.
G06V 10/764(2022.01)
G06V 10/774(2022.01)
G06V 10/74(2022.01)
(54)发明名称
一种分类模型的训练方法及装置
(57)摘要
本说明书公开了一种分类模型的训练方法
及装置, 从未标注的样本集中选取第一数量的训
练样本进行标注后, 分别确定各训练样本中各模
态的数据对应的特征向量, 并确定表征各训练样
本中各模态的数据关联程度的分类难度, 按照分
类难度从小到大的顺序, 分批训练分类模型。 若
训练该分类模 型的样本数量未达到预设数量, 则
根据该分类模 型对未标注的其他样 本进行分类,
确定其他样 本分类结果的不确定性, 以从中选择
分类困难的其他样本继续进行标注, 再次训练分
类模型。 通过重复上述过程, 使得在训练分类模
型时可以优先采用训练分类效果明显的样本进
行训练, 分批训练分类模型, 使得一方面可以提
高训练效率, 另一方面减少训练样本的数量, 减
轻人工标注的成本 。
权利要求书3页 说明书14页 附图3页
CN 114926687 A
2022.08.19
CN 114926687 A
1.一种分类模型的训练方法, 其特 征在于, 包括:
从样本集中选取第一数量的训练样本进行人工标注, 确定训练集, 其中, 各训练样本至
少由两种模态的数据组成;
针对所述训练集中的每个训练样本, 分别确定该训练样本 中各模态的数据对应的特征
向量;
确定该训练样本的各特征向量之间的相似度, 以根据确定出的各相似度, 确定表征该
训练样本中各模态数据的关联程度的分类难度;
按照各训练样本的分类难度从小到大的顺序, 对分类模型进行训练;
若用于训练所述分类模型的训练样本数量未达到预设数量, 则通过训练后的所述分类
模型对所述样本集中未进行 标注的各其 他样本进行分类;
根据各其他样本分类结果的不确定性从大到小的顺序, 确定第 一数量的其他样本作为
训练样本进行人工标注, 并加入到所述训练集中, 重新确定各训练样本的分类难度继续训
练所述分类模型, 直至采用所述预设数量的训练样本训练所述分类模型为止 。
2.根据权利要求1所述的方法, 其特征在于, 确定该训练样本的各特征向量之间的相似
度, 以根据确定出的各相似度, 确定表征该训练样本中各模态数据的关联程度的分类难度,
具体包括:
针对每个模态的数据对应的特征向量, 确定该特征向量与其它 模态的数据对应的特征
向量的相似度;
根据确定出的各相似度, 确定相似度均值;
根据所述相似度均值, 确定表征 该训练样本中各模态数据的关联程度的分类难度。
3.根据权利要求1所述的方法, 其特征在于, 按照各训练样本的分类难度从小到大的顺
序, 对分类模型进行训练, 具体包括:
按照各训练样本的分类难度从小到大的顺序, 从所述训练集中转移第 二数量的训练样
本, 加入到更新 集中;
根据所述更新 集中的各训练样本, 训练分类模型, 并判断所述训练集是否为空;
若是, 则确定所述分类模型的训练完成;
若否, 则按照分类难度从小到大的顺序, 从所述训练集转移所述第二数量的训练样本
到所述更新 集中, 继续训练所述分类模型, 直至所述训练集 为空为止 。
4.根据权利要求1所述的方法, 其特征在于, 通过训练后的所述分类模型对所述样本集
中未进行 标注的各其 他样本进行分类, 具体包括:
确定所述样本集中未进行 标注并选取为训练样本的其 他样本;
针对每个其他样本, 将该其他样本输入到训练后的所述分类模型中, 并根据所述分类
模型的输出 结果, 确定该其 他样本属于各分类 类型的概 率;
按照该其他样本属于各分类类型的概率从大到小的顺序, 确定第一概率以及第二概
率;
根据所述第一 概率与预设的第一阈值的大小关系, 确定第一 参数;
根据所述第 一概率和所述第 二概率的差值与预设的第 二阈值的大小关系, 确定第 二参
数;
根据所述第一 参数以及所述第二 参数, 确定该其 他样本的不确定性。权 利 要 求 书 1/3 页
2
CN 114926687 A
25.根据权利要求4所述的方法, 其特征在于, 根据 各其他样本分类结果的不确定性从大
到小的顺序, 确定第一数量的其他样本作为训练样本进行人工标注, 并加入到所述训练集
中, 具体包括:
按照分类结果的不确定性从大到小的顺序, 确定各其 他样本的排序;
确定在所述 排序中第一数量 位置的其 他样本的不确定性, 作为标准 值;
判断不确定性 不小于所述标准 值的其他样本数量是否大于所述第一数量;
若是, 则将不确定性大于所述标准值的其他样本, 进行人工标注, 并加入到所述训练集
中, 以及根据所述第一数量与不确定性大于所述标准值的其他样本的数量的差值, 从不确
定性等于所述标准值的其他样本中, 选择所述差值数量的其他样本, 进 行人工标注, 并加入
到所述训练集中;
若否, 则确定所述排序中前第 一数量的其他样本, 进行人工标注, 并加入到所述训练集
中。
6.根据权利要求1所述的方法, 其特征在于, 重新确定各训练样本的分类难度继续训练
所述分类模型, 直至采用所述预设数量的训练样本训练所述分类模型为止, 具体包括;
根据所述训练集, 重新确定各训练样本的分类难度, 继续训练所述分类模型;
判断用于训练所述分类模型的训练样本数量是否未达 到所述预设数量;
若是, 则根据继续训练得到的所述分类模型, 重新对所述样本集中未加入到所述训练
集的各其他样本进 行分类, 根据重新分类的分类结果的不确定性, 更新所述训练集, 继续训
练所述分类模型, 直至用于训练所述分类模型的训练样本数量达 到所述预设数量 为止;
若否, 则确定所述分类模型训练完成。
7.根据权利要求1所述的方法, 其特征在于, 直至采用所述预设数量的训练样本训练所
述分类模型为止之前, 所述方法还 包括:
判断所述样本集中训练样本的数量是否大于预设的检测阈值, 其中, 所述检测阈值小
于所述预设数量;
若是, 则从所述样本集未选取为训练样本的其他样本中, 选取第 四数量的其他样本进
行人工标注, 作为测试样本, 根据所述分类模型确定所述测试样本的分类结果, 并根据所述
分类结果以及人工标注确定分类准确 率, 当所述分类准确 率大于预设的准确 率阈值时, 确
定所述分类模型训练完成, 当所述分类准确 率不大于预设的准确 率阈值时, 继续对所述分
类模型进行训练;
若否, 则继续对所述分类模型进行训练。
8.一种数据分类模型的训练装置, 其特 征在于, 包括:
选取模块, 用于从样本集中选取第一数量的训练样本进行人工标注, 确定训练集, 其
中, 各训练样本 至少由两种模态的数据组成;
确定特征向量模块, 用于针对所述训练集中的每个训练样本, 分别确定该训练样本中
各模态的数据对应的特 征向量;
确定分类难度模块, 用于确定该训练样本的各特征向量之间的相似度, 以根据确定出
的各相似度, 确定表征 该训练样本中各模态数据的关联程度的分类难度;
初始训练模块, 用于按照各训练样本的分类难度从小到大的顺序, 对分类模型进行训
练;权 利 要 求 书 2/3 页
3
CN 114926687 A
3
专利 一种分类模型的训练方法及装置
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:51上传分享