专利 一种分类模型的训练方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210589562.9 (22)申请日 2022.05.26 (71)申请人北京三快在线科技有限公司地址 100080 北京市海淀区北四环西路9号 2106-030 (72)发明人阮颖颖　马潮　曹佐　 (74)专利代理机构北京曼威知识产权代理有限公司 11709 专利代理师王宏财 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/74(2022.01) (54)发明名称一种分类模型的训练方法及装置 (57)摘要本说明书公开了一种分类模型的训练方法及装置，从未标注的样本集中选取第一数量的训练样本进行标注后，分别确定各训练样本中各模态的数据对应的特征向量，并确定表征各训练样本中各模态的数据关联程度的分类难度，按照分类难度从小到大的顺序，分批训练分类模型。若训练该分类模型的样本数量未达到预设数量，则根据该分类模型对未标注的其他样本进行分类，确定其他样本分类结果的不确定性，以从中选择分类困难的其他样本继续进行标注，再次训练分类模型。通过重复上述过程，使得在训练分类模型时可以优先采用训练分类效果明显的样本进行训练，分批训练分类模型，使得一方面可以提高训练效率，另一方面减少训练样本的数量，减轻人工标注的成本。权利要求书3页说明书14页附图3页 CN 114926687 A 2022.08.19 CN 114926687 A 1.一种分类模型的训练方法，其特征在于，包括：从样本集中选取第一数量的训练样本进行人工标注，确定训练集，其中，各训练样本至少由两种模态的数据组成；针对所述训练集中的每个训练样本，分别确定该训练样本中各模态的数据对应的特征向量；确定该训练样本的各特征向量之间的相似度，以根据确定出的各相似度，确定表征该训练样本中各模态数据的关联程度的分类难度；按照各训练样本的分类难度从小到大的顺序，对分类模型进行训练；若用于训练所述分类模型的训练样本数量未达到预设数量，则通过训练后的所述分类模型对所述样本集中未进行标注的各其他样本进行分类；根据各其他样本分类结果的不确定性从大到小的顺序，确定第一数量的其他样本作为训练样本进行人工标注，并加入到所述训练集中，重新确定各训练样本的分类难度继续训练所述分类模型，直至采用所述预设数量的训练样本训练所述分类模型为止。 2.根据权利要求1所述的方法，其特征在于，确定该训练样本的各特征向量之间的相似度，以根据确定出的各相似度，确定表征该训练样本中各模态数据的关联程度的分类难度，具体包括：针对每个模态的数据对应的特征向量，确定该特征向量与其它模态的数据对应的特征向量的相似度；根据确定出的各相似度，确定相似度均值；根据所述相似度均值，确定表征该训练样本中各模态数据的关联程度的分类难度。 3.根据权利要求1所述的方法，其特征在于，按照各训练样本的分类难度从小到大的顺序，对分类模型进行训练，具体包括：按照各训练样本的分类难度从小到大的顺序，从所述训练集中转移第二数量的训练样本，加入到更新集中；根据所述更新集中的各训练样本，训练分类模型，并判断所述训练集是否为空；若是，则确定所述分类模型的训练完成；若否，则按照分类难度从小到大的顺序，从所述训练集转移所述第二数量的训练样本到所述更新集中，继续训练所述分类模型，直至所述训练集为空为止。 4.根据权利要求1所述的方法，其特征在于，通过训练后的所述分类模型对所述样本集中未进行标注的各其他样本进行分类，具体包括：确定所述样本集中未进行标注并选取为训练样本的其他样本；针对每个其他样本，将该其他样本输入到训练后的所述分类模型中，并根据所述分类模型的输出结果，确定该其他样本属于各分类类型的概率；按照该其他样本属于各分类类型的概率从大到小的顺序，确定第一概率以及第二概率；根据所述第一概率与预设的第一阈值的大小关系，确定第一参数；根据所述第一概率和所述第二概率的差值与预设的第二阈值的大小关系，确定第二参数；根据所述第一参数以及所述第二参数，确定该其他样本的不确定性。权　利　要　求　书 1/3 页 2 CN 114926687 A 25.根据权利要求4所述的方法，其特征在于，根据各其他样本分类结果的不确定性从大到小的顺序，确定第一数量的其他样本作为训练样本进行人工标注，并加入到所述训练集中，具体包括：按照分类结果的不确定性从大到小的顺序，确定各其他样本的排序；确定在所述排序中第一数量位置的其他样本的不确定性，作为标准值；判断不确定性不小于所述标准值的其他样本数量是否大于所述第一数量；若是，则将不确定性大于所述标准值的其他样本，进行人工标注，并加入到所述训练集中，以及根据所述第一数量与不确定性大于所述标准值的其他样本的数量的差值，从不确定性等于所述标准值的其他样本中，选择所述差值数量的其他样本，进行人工标注，并加入到所述训练集中；若否，则确定所述排序中前第一数量的其他样本，进行人工标注，并加入到所述训练集中。 6.根据权利要求1所述的方法，其特征在于，重新确定各训练样本的分类难度继续训练所述分类模型，直至采用所述预设数量的训练样本训练所述分类模型为止，具体包括；根据所述训练集，重新确定各训练样本的分类难度，继续训练所述分类模型；判断用于训练所述分类模型的训练样本数量是否未达到所述预设数量；若是，则根据继续训练得到的所述分类模型，重新对所述样本集中未加入到所述训练集的各其他样本进行分类，根据重新分类的分类结果的不确定性，更新所述训练集，继续训练所述分类模型，直至用于训练所述分类模型的训练样本数量达到所述预设数量为止；若否，则确定所述分类模型训练完成。 7.根据权利要求1所述的方法，其特征在于，直至采用所述预设数量的训练样本训练所述分类模型为止之前，所述方法还包括：判断所述样本集中训练样本的数量是否大于预设的检测阈值，其中，所述检测阈值小于所述预设数量；若是，则从所述样本集未选取为训练样本的其他样本中，选取第四数量的其他样本进行人工标注，作为测试样本，根据所述分类模型确定所述测试样本的分类结果，并根据所述分类结果以及人工标注确定分类准确率，当所述分类准确率大于预设的准确率阈值时，确定所述分类模型训练完成，当所述分类准确率不大于预设的准确率阈值时，继续对所述分类模型进行训练；若否，则继续对所述分类模型进行训练。 8.一种数据分类模型的训练装置，其特征在于，包括：选取模块，用于从样本集中选取第一数量的训练样本进行人工标注，确定训练集，其中，各训练样本至少由两种模态的数据组成；确定特征向量模块，用于针对所述训练集中的每个训练样本，分别确定该训练样本中各模态的数据对应的特征向量；确定分类难度模块，用于确定该训练样本的各特征向量之间的相似度，以根据确定出的各相似度，确定表征该训练样本中各模态数据的关联程度的分类难度；初始训练模块，用于按照各训练样本的分类难度从小到大的顺序，对分类模型进行训练；权　利　要　求　书 2/3 页 3 CN 114926687 A 3

专利 一种分类模型的训练方法及装置

专利一种分类模型的训练方法及装置