专利 图像与文本匹配方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210834141.8 (22)申请日 2022.07.14 (71)申请人平安科技（深圳）有限公司地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人刘羲　舒畅　陈又新　 (74)专利代理机构深圳市沃德知识产权代理事务所(普通合伙) 44347 专利代理师高杰　于志光 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/58(2019.01) G06F 16/583(2019.01) G06K 9/62(2022.01)G06V 10/74(2022.01) (54)发明名称图像与文本匹配方法、装置、电子设备及存储介质 (57)摘要本发明涉及智能决策领域，揭露一种图像与文本匹配方法、装置、电子设备以及存储介质，所述方法包括：获取训练图像与训练文本；利用预构建的匹配模型的自注意力机制对训练图像与训练文本进行特征提取；利用预构建的匹配模型的融合注意力机制对图像特征与文本特征进行融合，得到融合注意力值；对融合图像特征与融合文本特征进行匹配，得到初始匹配结果；利用预构建的匹配模型的损失函数计算匹配结果的损失值；若损失值大于预设阈值调整预构建的匹配模的模型参数，返回对训练图像与训练文本进行特征提取；损失值不大于预设阈值得到训练好的模型，利用匹配模型对待匹配数据进行匹配，得到最终匹配结果。本发明可以提高图像与文本匹配的准确度。权利要求书3页说明书10页附图3页 CN 115098644 A 2022.09.23 CN 115098644 A 1.一种图像与文本匹配方法，其特征在于，所述方法包括：获取训练图像与训练文本；利用预构建的匹配模型中的自注意力机制对所述训练图像与所述训练文本进行特征提取，得到图像特征与文本特征；利用所述预构建的匹配模型中的融合注意力机制对所述图像特征与所述文本特征进行融合，得到融合注意力值；根据所述融合注意力值，对所述融合图像特征与所述融合文本特征进行匹配，得到所述训练图像与所述训练文本的初始匹配结果；利用所述预构建的匹配模型中的损失函数计算所述初始匹配结果的损失值；若所述损失值大于预设阈值，调整所述预构建的匹配模型中的模型参数，返回上述利用预构建的匹配模型中的自注意力机制对所述训练图像与所述训练文本进行特征提取的步骤；若所述损失值不大于所述预设阈值，得到训练好的匹配模型，利用所述匹配模型对待匹配数据进行匹配，得到最终匹配结果。 2.如权利要求1所述的图像与文本匹配方法，其特征在于，所述利用预构建的匹配模型中的自注意力机制对所述训练图像与所述训练文本进行特征提取，得到图像特征与文本特征，包括：利用所述自注意力机制中的直方图法对所述训练图像进行特征提取，得到所述图像特征；对所述训练文本进行词块分割，得到文本词块；利用所述自注意力机制中的TF ‑IDF算法计算所述文本词块的文本特征值；在所述文本特征值大于预设特征值时，将所述文本特征值对应的文本词块作为所述文本特征。 3.如权利要求2所述的图像与文本匹配方法，其特征在于，所述TF ‑IDF算法包括：其中， TF‑IDF表示文本词块的特征值， TF表示文本词块的词块频率， C表示某类文档中某个文本词块出现的次数， C ′表示该类文档中所有文本词块的数目， IDF表示文件频率， W表示语料库中的文档总数， W ′表示包含所述文本词块的文档数目。 4.如权利要求1所述的图像与文本匹配方法，其特征在于，所述利用所述预构建的匹配模型中的融合注意力机制对所述图像特征与所述文本特征进行融合，得到融合注意力值，包括：利用下述公式对所述图像特征与所述文本特征进行融合：其中， Attention表示融合注意力值， Sour ce表示图像特征， Query文本特征， Keyi表示图像特征的第i个图像特征点， Valuei所述第i个图像特征点的权重系数， n表示图像特征点 ‑ 文本特征点的总数，表示对权重系数进行加权求和， Similarity表示图像特征与文本权　利　要　求　书 1/3 页 2 CN 115098644 A 2特征的相似度。 5.如权利要求1所述的图像与文本匹配方法，其特征在于，所述根据所述融合注意力值，对所述融合图像特征与所述融合文本特征进行匹配，得到所述训练图像与所述训练文本的初始匹配结果，包括：获取训练数据库，计算所述训练数据库中的图像数据与文本数据的图像注意力值与文本注意力值；将所述融合注意力值分别与所述图像注意力值、所述文本注意力值进行相似程度计算，得到图像相似度与文本相似度；在所述图像相似度与所述文本相似度均大于预设相似度时，将所述图像数据与所述文本数据作为所述初始匹配结果。 6.如权利要求1中所述的图像与文本匹配方法，其特征在于，所述损失函数包括：其中， loss表示损失值， x表示样本数量， y表示实际结果， a表示初始匹配结果， n表示样本总数量。 7.如权利要求1所述的图像与文本匹配方法，其特征在于，所述调整所述预构建的匹配模型中的模型参数，包括：获取验证数据，将所述验证数据输入至所述预构建的匹配模型中，得到所述验证数据的验证损失值；构建所述验证数据与所述验证损失值的线性损失图，识别所述模型参数对应的调整原则；根据所述线性损失图，利用所述调整原则对所述模型参数进行调整。 8.一种图像与文本匹配装置，其特征在于，所述装置包括：训练数据获取模块，用于获取训练图像与训练文本；特征提取模块，用于利用预构建的匹配模型中的自注意力机制对所述训练图像与所述训练文本进行特征提取，得到图像特征与文本特征；特征融合模块，用于利用所述预构建的匹配模型中的融合注意力机制对所述图像特征与所述文本特征进行融合，得到融合注意力值；特征匹配模块，用于根据所述融合注意力值，对所述融合图像特征与所述融合文本特征进行匹配，得到所述训练图像与所述训练文本的初始匹配结果；损失函数计算模块，用于利用所述预构建的匹配模型中的损失函数计算所述初始匹配结果的损失值；模型参数调整模块，用于若所述损失值大于预设阈值，调整所述预构建的匹配模型中的模型参数，返回上述利用预构建的匹配模型中的自注意力机制对所述训练图像与所述训练文本进行特征提取的步骤；待匹配数据匹配模块，用于若所述损失值不大于所述预设阈值，得到训练好的匹配模型，利用所述匹配模型对待匹配数据进行匹配，得到最终匹配结果。 9.一种电子设备，其特征在于，所述电子设备包括：至少一个处理器；以及，权　利　要　求　书 2/3 页 3 CN 115098644 A 3

专利 图像与文本匹配方法、装置、电子设备及存储介质

专利图像与文本匹配方法、装置、电子设备及存储介质