说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210809470.7 (22)申请日 2022.07.11 (71)申请人 东南大学 地址 210096 江苏省南京市玄武区四牌楼 2 号 (72)发明人 李佳汶 孙长银 王腾 王远大  (74)专利代理 机构 南京众联专利代理有限公司 32206 专利代理师 蒋昱 (51)Int.Cl. G06K 9/62(2022.01) G06Q 30/06(2012.01) G06V 10/74(2022.01) G06V 10/75(2022.01) G06V 10/764(2022.01) (54)发明名称 一种基于图像和文本的多模态商品匹配方 法 (57)摘要 一种基于图像和文本的多模态商品匹配方 法, 该方法旨在利用商品封面的图像信息和商品 标题中的文本信息, 找出相匹配的商品; 其具体 步骤: 首先, 使用度量学习的方法, 使网络 学习到 具有判别性的特征; 其次, 分别通过图像和文本 网络提取商品特征; 再次, 从图像、 文本和多模态 三个角度计算样本间特征的余弦距离, 采用查询 扩展的方法, 实现对匹配结果的重排; 最后, 设置 动态阈值, 实现多模态结果的融合, 并将满足阈 值条件的样 本加入到最终匹配结果中。 本发明所 涉及的神经网络结构和后处理方法, 能够有效解 决单一模态中存在的少匹配和误匹配问题。 在满 足匹配精确性的同时, 显著提高商品的召回率。 权利要求书2页 说明书5页 附图3页 CN 115018010 A 2022.09.06 CN 115018010 A 1.一种基于图像和文本的多模态商品匹配方法, 其特 征在于, 具体包括以下步骤: 步骤1: 在训练阶段中, 将商品的图像和文本信息进行预处理, 作为图像模型和文本模 型的输入; 步骤2: 分别设计处理图像和文本的神经网络模型, 提取图像和文本特征, 使用度量学 习方法进 行分类训练, 使网络学习到更具判别性的特征, 便于后续推理 时的相似度计算, 使 用ArcFace作为损失函数, 将待匹配商品的类别数目N设置为权重W的输出维度, 采用加性角 度惩罚项m的形式进行优化, 设s为超球面的半径, θj为第j个类别的权重向量与 输入向量的 夹角, yi为真实的类别, 则L oss的定义有 步骤3: 使用训练好的图像模型, 提取图像特征, 将每一个 图像样本的特征与其余所有 图像样本的特征通过KNN计算余弦相似度, 得到图像相似度排列前N的样本, 两个样本特征 fi和fj间的相似度定义 为 步骤4: 使用训练好的B ert模型和TFIDF, 将两者的特征加权后进行级联, 提取归一化后 的文本特 征, 并利用KN N计算文本样本间的特 征相似度, 得到文本相似度排列前N的样本; 步骤5: 将得到的图像特征和文本特征加权后进行拼接, 作为同时融合了图像和文本信 息的多模态特 征, 并再次利用KN N计算多模态特 征间的相似度, 得到相似度排列前N的样本; 步骤6: 分别使用排列前P, P<N的图像、 文本和多模态匹配结果进行查询扩展, 即利用 TopP的相似度作为权重, 对 该样本的邻域特征进 行加权求和, 作为新的查询向量, 设f(q)为 查询向量, fq(topi)是距离查询q的最近的第i个特 征, α 为权 重超参数, 则查询扩展的实现为 步骤7: 对于查询扩展后的图像、 文本和多模态特征, 分别再次利用KNN计算每一个样本 与其余所有样本间的图像、 文本和多模态特征相似度,该步骤 可以重复多次, 随着重复过程 的增加, 不断减小P的大小; 步骤8: 为图像和文本以及多模态特征分别设置动态阈值, 得到图像和文本以及多模态 特征在对应阈值下的匹配结果, 最后综合考虑图像、 文本以及多模态的分类结果, 对满足 阈 值的样本进行召回, 设k 为最少需要的匹配数目, st ride为每次阈值变化的步长, 则流 程为 2.根据权利要求1所述的一种基于图像和文本的多模态商品匹配方法, 其特征在于, 在 所述步骤1 中, 将待匹配的商品通过目标检测算法进 行裁剪, 消除无关背 景对后续匹配的影 响, 将裁剪后的图像缩放到 512×512px, 最后进行 数据增强处 理。 3.根据权利要求1所述的一种基于图像和文本的多模态商品匹配方法, 其特征在于, 在 所述步骤2中, 图像模型由高效网络和带ECA注意力机制的去归一化网络构成, 文本模型由权 利 要 求 书 1/2 页 2 CN 115018010 A 2Sentence‑Bert和TFIDF构成, 训练使用Arcface作为损失函数, 将属于同一商品的样本视作 同一类别, 在训练集中进行分类训练。 4.根据权利要求1所述的一种基于图像和文本的多模态商品匹配方法, 其特征在于, 在 所述步骤3中, 使用步骤2中训练好的图像模型提取图像特征, 将多个图像模型的特征归一 化后进行拼接, 作为集成后的图像特征, 再对集成后的特征使用K近邻方法,计算余弦距离, 得到图像相似度排列前N的特 征。 5.根据根据权利要求1所述的一种基于图像和文本的多模态商品匹配方法, 其特征在 于, 在所述步骤4中, 使用步骤2中训练好的Bert模型和TFIDF模型提取文本特征, 先对TFIDF 特征进行降维处理, 再将两者的特征归一化后进 行拼接, 作为集成后的文本特征, 再对集成 后特征使用K近邻方法, 计算 余弦距离, 得到文本相似度排列前N的特 征。 6.根据权利要求1所述的一种基于图像和文本的多模态商品匹配方法, 其特征在于, 在 所述步骤5中, 将步骤3和步骤4中得到的图像和文本特征进行拼接, 同样再次使用k近邻方 法, 计算拼接后特 征的余弦距离, 得到多模态相似度排列前N的特 征。 7.根据权利要求1所述的一种基于图像和文本的多模态商品匹配方法, 其特征在于, 在 所述步骤6中, 对于每一个商品, 分别使用步骤3、 步骤4和步骤5中得到的排列前N的图像、 文 本和多模态匹配样本, 从 中选择相似度最高的P 个进行查询扩展, 即使用TopP匹配样本的相 似度大小作为权 重, 对这些TopP的特 征进行加权求和, 作为 新的查询向量。 8.根据权利要求1所述的一种基于图像和文本的多模态商品匹配方法, 其特征在于, 在 所述步骤7中, 使用步骤6中得到的加权的新的图像、 文本和多模态 查询向量, 分别再次通过 K近邻方法计算余弦相似度, 并保留后相似度排列前N的样本, 该步骤 可以迭代多次, 迭代过 程中不断减少P的大小。 9.根据权利要求1所述的一种基于图像和文本的多模态商品匹配方法, 其特征在于, 在 所述步骤8中, 对于每一个商品, 获得步骤7中最终得到的排列前N的图像、 文本和多模态匹 配结果, 针对相似度大小, 为三者分别设置动态阈值, 并进行同步变化, 将三者中小于各自 阈值的样本取并集后加入最终结果中, 若取并集后的匹配数目大于k, 则退出阈值循环, 否 则继续放宽阈值。权 利 要 求 书 2/2 页 3 CN 115018010 A 3

PDF文档 专利 一种基于图像和文本的多模态商品匹配方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于图像和文本的多模态商品匹配方法 第 1 页 专利 一种基于图像和文本的多模态商品匹配方法 第 2 页 专利 一种基于图像和文本的多模态商品匹配方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:32:10上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。