专利 一种基于协同训练的半监督图文关系抽取系统及其方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210824354.2 (22)申请日 2022.07.14 (71)申请人山西大学地址 030006 山西省太原市小店区坞城路 92号山西大学科技楼80 3 (72)发明人梁吉业　王亚萍　王智强　王元龙　 (74)专利代理机构山西五维专利事务所(有限公司) 1410 5 专利代理师茹牡花 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06V 20/70(2022.01) G06V 30/148(2022.01)G06V 10/74(2022.01) G06T 7/62(2017.01) G06F 40/295(2020.01) (54)发明名称一种基于协同训练的半监督图文关系抽取系统及其方法 (57)摘要本发明属于计算机视觉和机器学习技术领域，特别是涉及一种基于协同训练的半监督图文关系抽取系统及其方法。包括以下步骤：输入图像，通过目标检测网络识别多个实体的候选区域；对候选区域的实体对两两组合，将实体对间各实体所在候选区域重合面积的得分排序，筛选得分高于阈值的作为候选建议实体对；基于候选建议实体对通过编码获取实体对的多模态特征；基于实体对的多模态特征构建图像视图和语义视图；在构建的图像视图和语义视图下训练图像分类器和语义分类器，通过训练更新网络，从而输出每个候选实体对间的视觉关系。本发明使用半监督学习的方式，使图像语义和文本语义两种模态的数据通过协同训练获取模态间深层信息，以提升关系检测的精度，并应用到视觉问答、知识推理等任务中。权利要求书4页说明书9页附图4页 CN 115187836 A 2022.10.14 CN 115187836 A 1.一种基于协同训练的半监督图文关系抽取系统，其特征在于，包括以下模块： S21：图像目标检测模块，用于获取图像数据，并通过目标检测网络识别多个实体的候选区域、实体所在区域的视觉特征以及实体对应标签； S22：实体对建议模块，用于筛选可能存在关系的候选建议实体对，对候选区域的实体对两两组合，将实体对间各实体所在候选区域重合面积的得分排序，筛选得分高于阈值的作为候选建议实体对； S23：多模态特征提取模块，用于将特征编码后获取候选建议实体对的多模态特征，包括：实体对相对位置特征、实体对的联合视觉特征及实体对语义特征； S24：视图构建模块，用于对获取的多模态特征得到图像视图下的特征表示和语义视图下的特征表示，用实体对的联合视觉特征与实体对相对位置特征作乘积构建图像视图，用实体对语义特征与实体对相对位置特征作乘积构建语义视图； S25：图文关系判别模块，用于判别实体对间的关系，在图像视图下的图像分类器中根据输出关系得分判别候选实体对间的关系以及在语义视图下的语义分类器中根据输出关系得分判别候选实体对间的关系，得分高的作为最终预测的关系。 2.使用权利要求1所述一种基于协同训练的半监督图文关系抽取系统进行基于协同训练的半监督图文关系抽取的方法，其特征在于，包括以下步骤： S11：输入图像，通过目标检测网络识别多个实体的候选区域及实体的相关信息； S12：将候选区域对应实体两两组合，将实体对间各实体所在候选区域重合面积的得分排序，筛选得分高于阈值的作为候选建议实体对； S13：基于候选建议实体对通过特征编码得到实体对的多模态特征，包括：实体对相对位置特征、实体对的联合视觉特征及实体对语义特征基于候选建议实体对及其相关信息获取实体对的多模态特征； S14：基于实体对的多模态特征，用实体对的联合视觉特征与实体对相对位置特征作乘积构建图像视图，用实体对语义特征与实体对相对位置特征作乘积构建语义视图； S15：在已构建的图像视图和语义视图下训练图像分类器和语义分类器，通过计算损失、反向传播不断训练更新网络，从而输出每个候选实体对间的视觉关系。 3.根据权利2所述的方法，其特征在于，所述步骤S11中，所述实体的候选区域及实体的相关信息具体为：实体候选区域：实体的坐标信息，表示为(x， y， w， h)， x、 y表示区域中心点坐标， w、 h分别为区域的宽和高；实体的相关信息：包括实体所在区域的视觉特征、根据实体所在区域的视觉特征获取的实体对应标签。 4.根据权利2所述的方法，其特征在于，所述步骤S12中，所述候选建议实体对的信息具体为：候选建议实体对即可能存在关系的实体对，实体对为主体和客体,存在关系的实体对间有方向性；候选建议实体对相关信息包含实体对及其联合区域的坐标信息、实体对及其联合区域的视觉特征和实体区域对应标签，实体对及其联合区域的坐标信息分别表示为 (xs， ys， ws， hs)， (xo， yo， wo， ho)和(xu， yu， wu， hu)，其中s表示主体， o表示客体， u表示主体和客体的联合区域。权　利　要　求　书 1/4 页 2 CN 115187836 A 25.根据权利2所述的方法，其特征在于，所述步骤S13中，所述实体对的多模态特征包括：实体对相对位置特征候选实体对及其联合区域的坐标信息通过两层全连接层进行编码后获得；实体对的联合视觉特征由实体对的联合区域的视觉特征通过两层全连接层进行编码后获得；实体对语义特征利用wikidata知识库得到的预训练语言模型word2vec，从而可以得到实体标签的词向量表示，将实体对中主体和客体转换为词向量表示，并将两个词向量表示首尾连接得到的表示通过两层全连接层进行编码后获得。 6.根据权利2所述的方法，其特征在于，所述步骤S14中，基于实体对的多模态特征构建图像视图和语义视图具体为：将多模态特征中实体对的联合视觉特征与实体对相对位置特征作乘积构建图像视图，得到数据在图像视图下的特征表示；将多模态特征中实体对语义特征与实体对相对位置特征作乘积构建语义视图，得到数据在语义视图下的特征表示。 7.根据权利要求2所述的方法，其特征在于，所述步骤S15中，在已构建的图像视图和语义视图下的图像分类器和语义分类器包括：图像分类器为由两层全连接层的神经网络构成的感知机；语义分类器为由两层全连接层的神经网络构成的感知机。 8.根据权利要求2所述的方法，其特征在于，进行训练的过程包括如下步骤：步骤S101：输入训练数据集，以1:10的比例划分数据集为标记数据集和未标记数据集并对这两个数据集进行采样，分为相同批次的数据；步骤S102：将第一批次的标记数据集和未标记数据集的数据分别通过所述多模态特征提取模块获取多模态特征，包括：实体对的联合视觉特征实体对语义特征和实体对相对位置特征通过所述视图构建模块获取图像视图下的特征表示和语义视图下的特征表示步骤S103：将标记数据集在图像视图下的特征表示输入所述图文协同分类模块下的图像分类器f1中，在语义视图下的特征表示输入所述图文协同分类模块下的语义分类器f2中，分别得到实体对间的关系预测得分，经过softmax函数得到归一化后的关系预测得分1和关系预测得分2，计算关系标签和关系得分1的交叉熵损失及关系标签和关系得分2的交叉熵损失，这两部分损失和作为分类损失步骤S104：将未标记数据集在图像视图下的特征表示输入所述图文协同分类模块下的图像分类器中，在语义视图下的特征表示输入所述图文协同分类模块下的语义分类器中，分别得到实体对间的关系预测得分，经过softmax函数得到归一化后的关系预测得分3 和关系预测得分4，使用JS散度度量系预测得分3和关系预测得分4的相似度作为协同损失权　利　要　求　书 2/4 页 3 CN 115187836 A 3

专利 一种基于协同训练的半监督图文关系抽取系统及其方法

专利一种基于协同训练的半监督图文关系抽取系统及其方法