(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210834141.8
(22)申请日 2022.07.14
(71)申请人 平安科技 (深圳) 有限公司
地址 518000 广东省深圳市福田区福田街
道福安社区益田路5033号平 安金融中
心23楼
(72)发明人 刘羲 舒畅 陈又新
(74)专利代理 机构 深圳市沃德知识产权代理事
务所(普通 合伙) 44347
专利代理师 高杰 于志光
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/58(2019.01)
G06F 16/583(2019.01)
G06K 9/62(2022.01)G06V 10/74(2022.01)
(54)发明名称
图像与文本匹配方法、 装置、 电子设备及存
储介质
(57)摘要
本发明涉及智能决策领域, 揭露一种图像与
文本匹配方法、 装置、 电子设备以及存储介质, 所
述方法包括: 获取训练图像与训练文本; 利用预
构建的匹配模型的自注意力机制对训练图像与
训练文本进行特征提取; 利用预构建的匹配模型
的融合注意力机制对图像特征与文本特征进行
融合, 得到融合注意力值; 对融合图像特征与融
合文本特征进行匹配, 得到初始匹配结果; 利用
预构建的匹配模型的损失函数计算匹配结果的
损失值; 若损失值大于预设阈值调整预构建的匹
配模的模型参数, 返回对训练图像与训练文本进
行特征提取; 损失值不大于预设阈值得到训练好
的模型, 利用匹配模型对待匹配数据进行匹配,
得到最终匹配结果。 本发明可以提高图像与文本
匹配的准确度。
权利要求书3页 说明书10页 附图3页
CN 115098644 A
2022.09.23
CN 115098644 A
1.一种图像与文本匹配方法, 其特 征在于, 所述方法包括:
获取训练图像与训练文本;
利用预构建的匹配模型中的自注意力机制对所述训练图像与所述训练文本进行特征
提取, 得到图像特 征与文本特 征;
利用所述预构建的匹配模型中的融合注意力机制对所述图像特征与所述文本特征进
行融合, 得到融合注意力值;
根据所述融合注意力值, 对所述融合图像特征与所述融合文本特征进行匹配, 得到所
述训练图像与所述训练文本的初始匹配结果;
利用所述预构建的匹配模型中的损失函数计算所述初始匹配结果的损失值;
若所述损 失值大于预设阈值, 调整所述预构建的匹配模型中的模型参数, 返回上述利
用预构建的匹配模型中的自注意力机制对所述训练图像与所述训练文本进行特征提取的
步骤;
若所述损 失值不大于所述预设阈值, 得到训练好的匹配模型, 利用所述匹配模型对待
匹配数据进行匹配, 得到最终匹配结果。
2.如权利要求1所述的图像与文本匹配方法, 其特征在于, 所述利用预构建的匹配模型
中的自注意力机制对所述训练图像与所述训练文本进 行特征提取, 得到图像特征与文本特
征, 包括:
利用所述自注意力 机制中的直方图法对所述训练图像进行特征提取, 得到所述图像特
征;
对所述训练文本进行词块分割, 得到文本词块;
利用所述自注意力机制中的TF ‑IDF算法计算所述文本词块的文本特 征值;
在所述文本特征值大于预设特征值 时, 将所述文本特征值对应的文本词块作为所述文
本特征。
3.如权利要求2所述的图像与文本匹配方法, 其特 征在于, 所述TF ‑IDF算法包括:
其中, TF‑IDF表示文本词块的特征值, TF表示文本词块的词块频率, C表示某类文档中
某个文本词块出现的次数, C ′表示该类文档中所有文本词块的数目, IDF表 示文件频率, W表
示语料库中的文档总数, W ′表示包含所述文本词块的文档数目。
4.如权利要求1所述的图像与文本匹配方法, 其特征在于, 所述利用所述预构建的匹配
模型中的融合注意力机制对所述图像特征与所述文本特征进行融合, 得到融合注意力值,
包括:
利用下述公式对所述图像特 征与所述文本特 征进行融合:
其中, Attention表示融合注意力值, Sour ce表示图像 特征, Query文本特征, Keyi表示图
像特征的第i个图像特征点, Valuei所述第i个图像特征点的权重系数, n表示图像特征点 ‑
文本特征点的总数,
表示对权重系数进行加权求和, Similarity表示图像特征与文本权 利 要 求 书 1/3 页
2
CN 115098644 A
2特征的相似度。
5.如权利要求1所述的图像与文本匹配方法, 其特征在于, 所述根据所述融合注意力
值, 对所述融合图像特征与所述融合文本特征进行匹配, 得到所述训练图像与所述训练文
本的初始匹配结果, 包括:
获取训练数据库, 计算所述训练数据库中的图像数据与文本数据的图像注意力值与文
本注意力值;
将所述融合注意力值分别与所述图像注意力值、 所述文本注意力值进行相似程度计
算, 得到图像相似度与文本相似度;
在所述图像相似度与 所述文本相似度均 大于预设相似度时, 将所述图像数据与所述文
本数据作为所述初始匹配结果。
6.如权利要求1中所述的图像与文本匹配方法, 其特 征在于, 所述损失函数包括:
其中, loss表示损失值, x表示样本数量, y表示实际结果, a表示初始匹配结果, n表示样
本总数量。
7.如权利要求1所述的图像与文本匹配方法, 其特征在于, 所述调整所述预构建的匹配
模型中的模型参数, 包括:
获取验证数据, 将所述验证数据输入至所述预构建的匹配模型中, 得到所述验证数据
的验证损失值;
构建所述验证数据与 所述验证损失值的线性损失图, 识别所述模型参数对应的调 整原
则;
根据所述线性损失图, 利用所述调整原则对所述模型参数进行调整。
8.一种图像与文本匹配装置, 其特 征在于, 所述装置包括:
训练数据获取模块, 用于获取训练图像与训练文本;
特征提取模块, 用于利用预构建的匹配模型中的自注意力 机制对所述训练图像与 所述
训练文本进行 特征提取, 得到图像特 征与文本特 征;
特征融合模块, 用于利用所述预构建的匹配模型中的融合注意力 机制对所述图像特征
与所述文本特 征进行融合, 得到融合注意力值;
特征匹配模块, 用于根据所述融合注意力值, 对所述融合图像特征与所述融合文本特
征进行匹配, 得到所述训练图像与所述训练文本的初始匹配结果;
损失函数计算模块, 用于利用所述预构建的匹配模型中的损失函数计算所述初始匹配
结果的损失值;
模型参数调整模块, 用于若所述损 失值大于预设阈值, 调整所述预构建的匹配模型中
的模型参数, 返回上述利用预构建的匹配模型中的自注意力机制对所述训练图像与所述训
练文本进行 特征提取的步骤;
待匹配数据匹配模块, 用于若所述损 失值不大于所述预设阈值, 得到训练好的匹配模
型, 利用所述匹配模型对待匹配数据进行匹配, 得到最终匹配结果。
9.一种电子设备, 其特 征在于, 所述电子设备包括:
至少一个处 理器; 以及,权 利 要 求 书 2/3 页
3
CN 115098644 A
3
专利 图像与文本匹配方法、装置、电子设备及存储介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:05上传分享