(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210809470.7
(22)申请日 2022.07.11
(71)申请人 东南大学
地址 210096 江苏省南京市玄武区四牌楼 2
号
(72)发明人 李佳汶 孙长银 王腾 王远大
(74)专利代理 机构 南京众联专利代理有限公司
32206
专利代理师 蒋昱
(51)Int.Cl.
G06K 9/62(2022.01)
G06Q 30/06(2012.01)
G06V 10/74(2022.01)
G06V 10/75(2022.01)
G06V 10/764(2022.01)
(54)发明名称
一种基于图像和文本的多模态商品匹配方
法
(57)摘要
一种基于图像和文本的多模态商品匹配方
法, 该方法旨在利用商品封面的图像信息和商品
标题中的文本信息, 找出相匹配的商品; 其具体
步骤: 首先, 使用度量学习的方法, 使网络 学习到
具有判别性的特征; 其次, 分别通过图像和文本
网络提取商品特征; 再次, 从图像、 文本和多模态
三个角度计算样本间特征的余弦距离, 采用查询
扩展的方法, 实现对匹配结果的重排; 最后, 设置
动态阈值, 实现多模态结果的融合, 并将满足阈
值条件的样 本加入到最终匹配结果中。 本发明所
涉及的神经网络结构和后处理方法, 能够有效解
决单一模态中存在的少匹配和误匹配问题。 在满
足匹配精确性的同时, 显著提高商品的召回率。
权利要求书2页 说明书5页 附图3页
CN 115018010 A
2022.09.06
CN 115018010 A
1.一种基于图像和文本的多模态商品匹配方法, 其特 征在于, 具体包括以下步骤:
步骤1: 在训练阶段中, 将商品的图像和文本信息进行预处理, 作为图像模型和文本模
型的输入;
步骤2: 分别设计处理图像和文本的神经网络模型, 提取图像和文本特征, 使用度量学
习方法进 行分类训练, 使网络学习到更具判别性的特征, 便于后续推理 时的相似度计算, 使
用ArcFace作为损失函数, 将待匹配商品的类别数目N设置为权重W的输出维度, 采用加性角
度惩罚项m的形式进行优化, 设s为超球面的半径, θj为第j个类别的权重向量与 输入向量的
夹角, yi为真实的类别, 则L oss的定义有
步骤3: 使用训练好的图像模型, 提取图像特征, 将每一个 图像样本的特征与其余所有
图像样本的特征通过KNN计算余弦相似度, 得到图像相似度排列前N的样本, 两个样本特征
fi和fj间的相似度定义 为
步骤4: 使用训练好的B ert模型和TFIDF, 将两者的特征加权后进行级联, 提取归一化后
的文本特 征, 并利用KN N计算文本样本间的特 征相似度, 得到文本相似度排列前N的样本;
步骤5: 将得到的图像特征和文本特征加权后进行拼接, 作为同时融合了图像和文本信
息的多模态特 征, 并再次利用KN N计算多模态特 征间的相似度, 得到相似度排列前N的样本;
步骤6: 分别使用排列前P, P<N的图像、 文本和多模态匹配结果进行查询扩展, 即利用
TopP的相似度作为权重, 对 该样本的邻域特征进 行加权求和, 作为新的查询向量, 设f(q)为
查询向量, fq(topi)是距离查询q的最近的第i个特 征, α 为权 重超参数, 则查询扩展的实现为
步骤7: 对于查询扩展后的图像、 文本和多模态特征, 分别再次利用KNN计算每一个样本
与其余所有样本间的图像、 文本和多模态特征相似度,该步骤 可以重复多次, 随着重复过程
的增加, 不断减小P的大小;
步骤8: 为图像和文本以及多模态特征分别设置动态阈值, 得到图像和文本以及多模态
特征在对应阈值下的匹配结果, 最后综合考虑图像、 文本以及多模态的分类结果, 对满足 阈
值的样本进行召回, 设k 为最少需要的匹配数目, st ride为每次阈值变化的步长, 则流 程为
2.根据权利要求1所述的一种基于图像和文本的多模态商品匹配方法, 其特征在于, 在
所述步骤1 中, 将待匹配的商品通过目标检测算法进 行裁剪, 消除无关背 景对后续匹配的影
响, 将裁剪后的图像缩放到 512×512px, 最后进行 数据增强处 理。
3.根据权利要求1所述的一种基于图像和文本的多模态商品匹配方法, 其特征在于, 在
所述步骤2中, 图像模型由高效网络和带ECA注意力机制的去归一化网络构成, 文本模型由权 利 要 求 书 1/2 页
2
CN 115018010 A
2Sentence‑Bert和TFIDF构成, 训练使用Arcface作为损失函数, 将属于同一商品的样本视作
同一类别, 在训练集中进行分类训练。
4.根据权利要求1所述的一种基于图像和文本的多模态商品匹配方法, 其特征在于, 在
所述步骤3中, 使用步骤2中训练好的图像模型提取图像特征, 将多个图像模型的特征归一
化后进行拼接, 作为集成后的图像特征, 再对集成后的特征使用K近邻方法,计算余弦距离,
得到图像相似度排列前N的特 征。
5.根据根据权利要求1所述的一种基于图像和文本的多模态商品匹配方法, 其特征在
于, 在所述步骤4中, 使用步骤2中训练好的Bert模型和TFIDF模型提取文本特征, 先对TFIDF
特征进行降维处理, 再将两者的特征归一化后进 行拼接, 作为集成后的文本特征, 再对集成
后特征使用K近邻方法, 计算 余弦距离, 得到文本相似度排列前N的特 征。
6.根据权利要求1所述的一种基于图像和文本的多模态商品匹配方法, 其特征在于, 在
所述步骤5中, 将步骤3和步骤4中得到的图像和文本特征进行拼接, 同样再次使用k近邻方
法, 计算拼接后特 征的余弦距离, 得到多模态相似度排列前N的特 征。
7.根据权利要求1所述的一种基于图像和文本的多模态商品匹配方法, 其特征在于, 在
所述步骤6中, 对于每一个商品, 分别使用步骤3、 步骤4和步骤5中得到的排列前N的图像、 文
本和多模态匹配样本, 从 中选择相似度最高的P 个进行查询扩展, 即使用TopP匹配样本的相
似度大小作为权 重, 对这些TopP的特 征进行加权求和, 作为 新的查询向量。
8.根据权利要求1所述的一种基于图像和文本的多模态商品匹配方法, 其特征在于, 在
所述步骤7中, 使用步骤6中得到的加权的新的图像、 文本和多模态 查询向量, 分别再次通过
K近邻方法计算余弦相似度, 并保留后相似度排列前N的样本, 该步骤 可以迭代多次, 迭代过
程中不断减少P的大小。
9.根据权利要求1所述的一种基于图像和文本的多模态商品匹配方法, 其特征在于, 在
所述步骤8中, 对于每一个商品, 获得步骤7中最终得到的排列前N的图像、 文本和多模态匹
配结果, 针对相似度大小, 为三者分别设置动态阈值, 并进行同步变化, 将三者中小于各自
阈值的样本取并集后加入最终结果中, 若取并集后的匹配数目大于k, 则退出阈值循环, 否
则继续放宽阈值。权 利 要 求 书 2/2 页
3
CN 115018010 A
3
专利 一种基于图像和文本的多模态商品匹配方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:10上传分享