专利 一种基于图像和文本的多模态商品匹配方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210809470.7 (22)申请日 2022.07.11 (71)申请人东南大学地址 210096 江苏省南京市玄武区四牌楼 2 号 (72)发明人李佳汶　孙长银　王腾　王远大　 (74)专利代理机构南京众联专利代理有限公司 32206 专利代理师蒋昱 (51)Int.Cl. G06K 9/62(2022.01) G06Q 30/06(2012.01) G06V 10/74(2022.01) G06V 10/75(2022.01) G06V 10/764(2022.01) (54)发明名称一种基于图像和文本的多模态商品匹配方法 (57)摘要一种基于图像和文本的多模态商品匹配方法，该方法旨在利用商品封面的图像信息和商品标题中的文本信息，找出相匹配的商品；其具体步骤：首先，使用度量学习的方法，使网络学习到具有判别性的特征；其次，分别通过图像和文本网络提取商品特征；再次，从图像、文本和多模态三个角度计算样本间特征的余弦距离，采用查询扩展的方法，实现对匹配结果的重排；最后，设置动态阈值，实现多模态结果的融合，并将满足阈值条件的样本加入到最终匹配结果中。本发明所涉及的神经网络结构和后处理方法，能够有效解决单一模态中存在的少匹配和误匹配问题。在满足匹配精确性的同时，显著提高商品的召回率。权利要求书2页说明书5页附图3页 CN 115018010 A 2022.09.06 CN 115018010 A 1.一种基于图像和文本的多模态商品匹配方法，其特征在于，具体包括以下步骤：步骤1：在训练阶段中，将商品的图像和文本信息进行预处理，作为图像模型和文本模型的输入；步骤2：分别设计处理图像和文本的神经网络模型，提取图像和文本特征，使用度量学习方法进行分类训练，使网络学习到更具判别性的特征，便于后续推理时的相似度计算，使用ArcFace作为损失函数，将待匹配商品的类别数目N设置为权重W的输出维度，采用加性角度惩罚项m的形式进行优化，设s为超球面的半径， θj为第j个类别的权重向量与输入向量的夹角， yi为真实的类别，则L oss的定义有步骤3：使用训练好的图像模型，提取图像特征，将每一个图像样本的特征与其余所有图像样本的特征通过KNN计算余弦相似度，得到图像相似度排列前N的样本，两个样本特征 fi和fj间的相似度定义为步骤4：使用训练好的B ert模型和TFIDF，将两者的特征加权后进行级联，提取归一化后的文本特征，并利用KN N计算文本样本间的特征相似度，得到文本相似度排列前N的样本；步骤5：将得到的图像特征和文本特征加权后进行拼接，作为同时融合了图像和文本信息的多模态特征，并再次利用KN N计算多模态特征间的相似度，得到相似度排列前N的样本；步骤6：分别使用排列前P， P<N的图像、文本和多模态匹配结果进行查询扩展，即利用 TopP的相似度作为权重，对该样本的邻域特征进行加权求和，作为新的查询向量，设f(q)为查询向量， fq(topi)是距离查询q的最近的第i个特征， α 为权重超参数，则查询扩展的实现为步骤7：对于查询扩展后的图像、文本和多模态特征，分别再次利用KNN计算每一个样本与其余所有样本间的图像、文本和多模态特征相似度,该步骤可以重复多次，随着重复过程的增加，不断减小P的大小；步骤8：为图像和文本以及多模态特征分别设置动态阈值，得到图像和文本以及多模态特征在对应阈值下的匹配结果，最后综合考虑图像、文本以及多模态的分类结果，对满足阈值的样本进行召回，设k 为最少需要的匹配数目， st ride为每次阈值变化的步长，则流程为 2.根据权利要求1所述的一种基于图像和文本的多模态商品匹配方法，其特征在于，在所述步骤1 中，将待匹配的商品通过目标检测算法进行裁剪，消除无关背景对后续匹配的影响，将裁剪后的图像缩放到 512×512px，最后进行数据增强处理。 3.根据权利要求1所述的一种基于图像和文本的多模态商品匹配方法，其特征在于，在所述步骤2中，图像模型由高效网络和带ECA注意力机制的去归一化网络构成，文本模型由权　利　要　求　书 1/2 页 2 CN 115018010 A 2Sentence‑Bert和TFIDF构成，训练使用Arcface作为损失函数，将属于同一商品的样本视作同一类别，在训练集中进行分类训练。 4.根据权利要求1所述的一种基于图像和文本的多模态商品匹配方法，其特征在于，在所述步骤3中，使用步骤2中训练好的图像模型提取图像特征，将多个图像模型的特征归一化后进行拼接，作为集成后的图像特征，再对集成后的特征使用K近邻方法,计算余弦距离，得到图像相似度排列前N的特征。 5.根据根据权利要求1所述的一种基于图像和文本的多模态商品匹配方法，其特征在于，在所述步骤4中，使用步骤2中训练好的Bert模型和TFIDF模型提取文本特征，先对TFIDF 特征进行降维处理，再将两者的特征归一化后进行拼接，作为集成后的文本特征，再对集成后特征使用K近邻方法，计算余弦距离，得到文本相似度排列前N的特征。 6.根据权利要求1所述的一种基于图像和文本的多模态商品匹配方法，其特征在于，在所述步骤5中，将步骤3和步骤4中得到的图像和文本特征进行拼接，同样再次使用k近邻方法，计算拼接后特征的余弦距离，得到多模态相似度排列前N的特征。 7.根据权利要求1所述的一种基于图像和文本的多模态商品匹配方法，其特征在于，在所述步骤6中，对于每一个商品，分别使用步骤3、步骤4和步骤5中得到的排列前N的图像、文本和多模态匹配样本，从中选择相似度最高的P 个进行查询扩展，即使用TopP匹配样本的相似度大小作为权重，对这些TopP的特征进行加权求和，作为新的查询向量。 8.根据权利要求1所述的一种基于图像和文本的多模态商品匹配方法，其特征在于，在所述步骤7中，使用步骤6中得到的加权的新的图像、文本和多模态查询向量，分别再次通过 K近邻方法计算余弦相似度，并保留后相似度排列前N的样本，该步骤可以迭代多次，迭代过程中不断减少P的大小。 9.根据权利要求1所述的一种基于图像和文本的多模态商品匹配方法，其特征在于，在所述步骤8中，对于每一个商品，获得步骤7中最终得到的排列前N的图像、文本和多模态匹配结果，针对相似度大小，为三者分别设置动态阈值，并进行同步变化，将三者中小于各自阈值的样本取并集后加入最终结果中，若取并集后的匹配数目大于k，则退出阈值循环，否则继续放宽阈值。权　利　要　求　书 2/2 页 3 CN 115018010 A 3

专利 一种基于图像和文本的多模态商品匹配方法

专利一种基于图像和文本的多模态商品匹配方法