(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210716996.0
(22)申请日 2022.06.23
(71)申请人 天津理工大 学
地址 300384 天津市西青区 宾水西道391号
(72)发明人 孙卓 张飞飞 徐常胜
(74)专利代理 机构 南京智造力知识产权代理有
限公司 32382
专利代理师 王军丽
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/583(2019.01)
G06F 40/268(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种基于文本检测和语义匹配的场景文本
检索模型、 方法及计算机设备
(57)摘要
本发明公开了一种基于文本检测和语义匹
配的场景文本检索模型、 方法及计算机设备, 首
先对原始 图像进行预处理得到图像区域特征和
图像中的文本信息即场景文本。 将图像区域特征
和图像描述文本输入特征学习模 型中, 学习图像
与文本的映射关系。 将图像描述文本和场景文本
输入特征学习模型fastText中, 学习图像描 述文
本和场景文本的映射关系。 最终将上述两种映射
关系进行融合得到针对场景文本的统一检索模
型。 本发明解决了现有跨模态检索模 型在包含场
景文本数据上准确率低的问题, 能够有效地提高
场景文本 检索的准确率。
权利要求书4页 说明书7页 附图1页
CN 115017266 A
2022.09.06
CN 115017266 A
1.一种基于文本检测和语义匹配的场景文本检索模型, 其特征在于, 该模型通过以下
步骤得到:
S1, 提取图像的区域特征和图像描述文本的单词级别特征, 通过多层感知机将两个特
征映射到共同的语义空间, 得到图像特 征V和文本特 征E;
S2, 利用余弦相似度计算两者的相似度, 通过三元组损失函数对模型进行优化训练, 最
终得到跨模态检索相似度Sc;
S3, 提取出图像中的文本信息即场景文本, 并使用fastText提取出场景文本的单词特
征O;
S4, 利用StanfordCoreNlp对图像描述文本进行处理, 挑选出符合语义要求的单词并通
过fastText提取 出图像描述文本的单词特 征P;
S5, 针对文本特征的不同层级特征, 分别使用单词、 句子级别的特征进行相似度计算,
并利用堆叠交叉注意力机制进 行计算, 使模型建模场景文本和图像描述文本之 间的语义关
系, 将三个相似度通过加权得到最终的场景文本和图像描述文本的相似度Ssum;
S6, 融合S2和S5, 得到一个 基于文本检测 和语义匹配的场景文本检索模型。
2.根据权利要求1所述的一种基于文本检测和语义匹配的场景文本检索模型, 其特征
在于, 所述S1的具体实现包括:
S1‑1,给定图像I, 使用预训练好的FasterRCNN检测图像中的n个感兴趣区域ri, 并提取
对应的区域特 征fi; 然后使用多层感知机将图像区域特 征fi映射到共同的特 征空间得到vi:
vi=MLPv(fi)
其中, MLPv表示对应于图像的多层感知机, 得到的图像特征表示为
S1‑2, 给定句子T, 对于句子中的第i个单词, 使用独热编码wi表示该单词在词汇表中的
位置, 使用映射矩阵We将wi映射到300维的向量 中, 表示为xi=Wewi,i∈[1,m], 其 中m表示句
子中的单词个数, 使用Bi ‑GRU将xi映射为单词特征; Bi ‑GRU包括一个向前的GRU, 从w1向wm读
取句子T, 具体如下:
和一个向后的GRU,从wm向w1读取句子T, 具体如下:
最终的单词特征ei通过将
和
取平均的方式进行融合, 使得单词特征融合wi周围句
子的上下文信息, 表示为
然后使用多层感知机将图像描述映射到共
同的特征空间得到ei:
ei=MLPe(fi)
其 中 ,M L Pe表 示 对 应 于 图 像 的 多 层 感 知 机 ,得 到 的 文 本 特 征 表 示 为
3.根据权利要求1所述的一种基于文本检测和语义匹配的场景文本检索模型, 其特征
在于, 所述S2的具体实现包括:权 利 要 求 书 1/4 页
2
CN 115017266 A
2使用余弦相似度计算图像特征V和文本特征E的相似度, 得到跨模态检索的相似度结
果;
使用图像聚合器和文本聚合器fvisual(·)和ftext(·)进行聚合, 将图像特征V和文本特
征E进行嵌入得到聚合后的特 征α, β:
通过余弦相似度计算图像I和图像描 述T之间的相似度, 用Sc(v,e)表示跨模态检索的相
似度, 表示 为:
使用三元组损失对S2的第一子模型进行训练:
其中Δ是超参数, (v,e)表示数据集
中的正样本对,
表示v的
最难负样本,
表示t的最难负样本, [x]+≡max(0,x), 利用三元排序
损失拉近正样本对之间的距离, 其中, t ′和v′为中间变量。
4.根据权利要求1所述的一种基于文本检测和语义匹配的场景文本检索模型, 其特征
在于, 所述S3的具体实现包括:
S3‑1,对于给定图像I, 将图片输入Rosetta OCR图像文本提取系统, 提取出图片中的所
有OCR tokens,OCR tokens即从图片中识别出的单词; 对于每张输入的图像, 利用OCR提取
出单词文本即场景文本;
S3‑2, 对提取出的场景文本进行预处理, 首先对数据进行清洗, 删除符号, 单个字符等
识别出的文本;
S3‑3, 将步骤S3 ‑2所得的场景文本进行词性分析和筛选, 将场景文本送入
StanfordCoreNlp中进行语义分析, 通过对数据集
中的图像描述和Rosetta OCR场景文本
进行数据分析, 图像描述与场景文本有大量相同词性的单词, 对应于StanfordCoreNlp中定
义的词性标签, 分别是NN(名词、 普通、 单数或大量), NNS(名词, 普通, 复数), NNP(名词, 专有
的, 单数), CD(数字, 基数), JJ(形容词或数词, 序数); 对 经过S3‑2预处理的场景文本进行词
性筛选, 挑选单词词性包含在上述五种词性的单词, 最终挑选出k个场景文本用于后续任
务;
将最终得到的场景文本通过预训练的fastText模型提取出300维的特征向量,
fastText得到的场景文本的单词特 征表示为
5.根据权利要求1所述的一种基于文本检测和语义匹配的场景文本检索模型, 其特征
在于, 所述S4的具体实现包括:
S4‑1, 对图像描述文本即未处理的单词文本进行词性分析, 将图像描述文本送入
StanfordCoreN lp中进行语义分析, 获得每 个单词对应的词性标签。
S4‑2, 通过对数据集
中的图像描述和Rosetta OCR场景文本进行数据分析, 在图像描
述文本上挑选出词性 为NN, NNS, NNP, CD, JJ的图像描述单词;权 利 要 求 书 2/4 页
3
CN 115017266 A
3
专利 一种基于文本检测和语义匹配的场景文本检索模型、方法及计算机设备
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:08:00上传分享