(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210824354.2
(22)申请日 2022.07.14
(71)申请人 山西大学
地址 030006 山西省太原市小店区坞城路
92号山西大学科技楼80 3
(72)发明人 梁吉业 王亚萍 王智强 王元龙
(74)专利代理 机构 山西五维专利事务所(有限
公司) 1410 5
专利代理师 茹牡花
(51)Int.Cl.
G06V 10/774(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)
G06V 20/70(2022.01)
G06V 30/148(2022.01)G06V 10/74(2022.01)
G06T 7/62(2017.01)
G06F 40/295(2020.01)
(54)发明名称
一种基于协同训练的半监督图文关系抽取
系统及其方法
(57)摘要
本发明属于计算机视觉和机器学习技术领
域, 特别是涉及一种基于协同训练的半监督图文
关系抽取系统及其方法。 包括以下步骤: 输入 图
像, 通过目标检测网络识别多个实体的候选区
域; 对候选区域的实体对两两组合, 将实体对间
各实体所在候选区域重合面积的得分排序, 筛选
得分高于阈值的作为候选建议实体对; 基于候选
建议实体对通过编码获取实体对的多模态特征;
基于实体对的多模态特征构建图像视图和语义
视图; 在构建的图像视图和语义视图下训练图像
分类器和语义分类器, 通过训练更新网络, 从而
输出每个候选实体对间的视觉关系。 本发明使用
半监督学习的方式, 使图像语义和文本语义两种
模态的数据通过协同训练获取模态间深层信息,
以提升关系检测的精度, 并应用到视觉问答、 知
识推理等任务中。
权利要求书4页 说明书9页 附图4页
CN 115187836 A
2022.10.14
CN 115187836 A
1.一种基于协同训练的半监 督图文关系抽取系统, 其特 征在于, 包括以下模块:
S21: 图像目标检测模块, 用于获取图像数据, 并通过目标检测网络识别多个实体的候
选区域、 实体所在区域的视 觉特征以及实体对应标签;
S22: 实体对建议模块, 用于筛选可能存在关系的候选建议实体对, 对候选区域的实体
对两两组合, 将实体对间各实体所在候选区域重合面积的得分排序, 筛选得分高于阈值的
作为候选建议实体对;
S23: 多模态特征提取模块, 用于将特征编码后获取候选建议实体对的多模态特征, 包
括: 实体对相对位置特 征、 实体对的联合视 觉特征及实体对语义特 征;
S24: 视图构建模块, 用于对获取的多模态特征得到图像视图下的特征表示和语义视图
下的特征表示, 用实体对的联合视觉特征与实体对相对位置特征作乘积构建图像视图, 用
实体对语义特 征与实体对相对位置特 征作乘积构建语义视图;
S25: 图文关系判别模块, 用于判别实体对间的关系, 在图像视图下的图像分类器中根
据输出关系得分判别候选实体对间的关系以及在语义视图下的语义分类器中根据输出关
系得分判别候选实体对间的关系, 得分高的作为 最终预测的关系。
2.使用权利要求1所述一种基于协同训练 的半监督图文关系抽取系统进行基于协同训
练的半监 督图文关系抽取的方法, 其特 征在于, 包括以下步骤:
S11: 输入图像, 通过目标检测网络识别多个实体的候选区域及实体的相关信息;
S12: 将候选区域对应实体两两组合, 将实体对 间各实体所在候选区域重合面积的得分
排序, 筛选得分高于阈值的作为 候选建议实体对;
S13: 基于候选建议实体对通过特征编码得到实体对的多模态特征, 包括: 实体对相对
位置特征、 实体对的联合视觉特征及实体对语义特征基于候选 建议实体对及其相关信息获
取实体对的多模态特 征;
S14: 基于实体对的多模态特征, 用实体对的联合视觉特征与实体对相对位置特征作乘
积构建图像视图, 用实体对语义特 征与实体对相对位置特 征作乘积构建语义视图;
S15: 在已构建的图像视图和语义视图下训练图像分类器和语义分类器, 通过计算损
失、 反向传播 不断训练更新网络, 从而输出每 个候选实体对间的视 觉关系。
3.根据权利2所述的方法, 其特征在于, 所述步骤S11中, 所述实体的候选区域及实体的
相关信息具体为:
实体候选区域: 实体的坐标信息, 表示为(x, y, w, h), x、 y表示区域中心点坐标, w、 h分别
为区域的宽和高;
实体的相关信息: 包括实体所在区域的视觉特征、 根据实体所在区域的视觉特征获取
的实体对应标签。
4.根据权利2所述的方法, 其特征在于, 所述步骤S12中, 所述候选建议实体对的信息具
体为:
候选建议实体对即可能存在关系的实体对, 实体对为主体和客体,存在关系的实体对
间有方向性; 候选建议实体对相关信息包含实体对及其联合区域的坐标信息、 实体对及其
联合区域的视觉特征和实体区域对应标签, 实体对及其联合区域的坐标信息分别表示为
(xs, ys, ws, hs), (xo, yo, wo, ho)和(xu, yu, wu, hu), 其中s表示主体, o表示客体, u表示主体和客
体的联合区域。权 利 要 求 书 1/4 页
2
CN 115187836 A
25.根据权利2所述的方法, 其特征在于, 所述步骤S13中, 所述实体对的多模态特征包
括:
实体对相对位置特征
候选实体对及其联合 区域的坐标信息通过两层全连接层进行
编码后获得;
实体对的联合视觉特征
由实体对的联合 区域的视觉特征通过两层全连接层进行编
码后获得;
实体对语义特征
利用wikidata知识库得到的预训练语言模型word2vec, 从而可以得
到实体标签的词向量表示, 将实体对中主体和 客体转换为词向量表示, 并将两个词向量表
示首尾连接得到的表示 通过两层全连接层进行编码后获得。
6.根据权利2所述的方法, 其特征在于, 所述步骤S14中, 基于实体对的多模态特征构建
图像视图和语义视图具体为:
将多模态特征中实体对的联合视觉特征与实体对相对位置特征作乘积构建图像视图,
得到数据在图像视图下的特 征表示;
将多模态特征中实体对语义特征与实体对相对位置特征作乘积构建语义视图, 得到数
据在语义视图下的特 征表示。
7.根据权利要求2所述的方法, 其特征在于, 所述步骤S15中, 在已构建的图像视图和语
义视图下的图像分类 器和语义分类 器包括:
图像分类 器为由两层全连接层的神经网络构成的感知机;
语义分类 器为由两层全连接层的神经网络构成的感知机 。
8.根据权利要求2所述的方法, 其特 征在于, 进行训练的过程包括如下步骤:
步骤S101: 输入训练数据集, 以1:10的比例划分数据集为标记数据集
和未标记数据集
并对这两个数据集进行采样, 分为相同批次的数据;
步骤S102: 将第一批次的标记数据集
和未标记数据集的数据分别通过所述多模态特
征提取模块获取多模态特征, 包括: 实体对的联合视觉特征
实体对语义特征
和实体对
相对位置特征
通过所述视图构建模块获取图像视图下的特征表示
和语义视图下的特
征表示
步骤S103: 将标记数据集
在图像视图下的特征表示
输入所述图文协同分类模块下
的图像分类器f1中, 在语义视图下的特征表示
输入所述图文协同分类模块下的语义分类
器f2中, 分别得到实体对间的关系预测得分, 经过softmax函数得到归一化后的关系预测得
分1和关系预测得分2, 计算关系标签和关系得分1的交叉熵损失及关系标签和关系得分2的
交叉熵损失, 这两 部分损失和作为分类损失
步骤S104: 将未标记数据集
在图像视图下的特征表示输入所述图文协同分类模块下
的图像分类器中, 在语义视图下的特征表示输入所述图文协同分类模块下的语义分类器
中, 分别得到实体对间的关系预测得分, 经过softmax函数得到归一化后的关系预测得分3
和关系预测得分4, 使用JS散度度量系预测得分3和关系预测得分4的相 似度作为协同损失
权 利 要 求 书 2/4 页
3
CN 115187836 A
3
专利 一种基于协同训练的半监督图文关系抽取系统及其方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:05上传分享