(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210619901.3
(22)申请日 2022.06.02
(71)申请人 浙江华巽科技有限公司
地址 317600 浙江省台州市玉环市龙溪镇
小山外工业园区
(72)发明人 杨鹏 汤亚玲 李文军 解然
(74)专利代理 机构 南京众联专利代理有限公司
32206
专利代理师 叶涓涓
(51)Int.Cl.
G06F 40/279(2020.01)
G06F 40/216(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种基于表格检索和实体图推理的事实验
证方法与装置
(57)摘要
本发明公开了一种基于表格检索和实体图
推理的事实验证方法与装置, 方法包括如下步
骤: 首先针对输入的文本声明, 进行表格证据检
索, 得到与声明最相关的表格证据集合; 接着利
用BERT模型对表 格和文本声明进行编码, 并得到
表格和文本中的实体表示; 然后将获取的实体表
示和声明表 示构建为实体图, 并利用注意力聚合
及信息融合操作增强表格实体与声明的交互; 最
后利用最佳表格提取操作获得最终声明的验证
结果。 本发 明利用信息检索技术赋 予模型表格证
据检索的能力, 并结合图注意力以及信息融合等
操作增强模 型的验证准确率, 能够在海量语料库
中根据给定声明检索表格证据, 并结合表格证据
对网络中的声明进行真实性验证 。
权利要求书4页 说明书9页 附图2页
CN 114997155 A
2022.09.02
CN 114997155 A
1.一种基于表格 检索和实体图推理的事实验证方法, 其特 征在于, 包括如下步骤:
步骤1, 获取与文本声明相关的表格 证据集合
通过计算证据语料库中每个表格内容双元表示的TF ‑IDF向量点积来获取表格中每个
token的编码, 使用同样的方法对文本声明所包含实体的token进行编码; 根据表格单词表
示与实体表示之间的最佳匹配得分之和作为表格证据与声明之 间的匹配得分, 将得分排名
前k的表格作为检索到的证据集 合;
步骤2, 获取表格 证据集合以及文本声明的初步表示
将步骤1中获取的表格证据集合以及给定的文本声明作为BERT模型的输入, 获取初步
编码表示; 通过BERTNER对表格 证据集合中涉及的实体进行识别, 获取实体的初步表示;
步骤3, 根据抽取的实体构建并初始化实体图, 在此基础上进行图推理
将表格中的实体以及文本声明句子作为实体图中的节点, 并根据节点之间的关系构建
实体图的边, 并利用GAT 进行节点间的信息传播, 获取实体节点以及声明节点的特 征表示;
步骤4, 融合表格与声明之间的信息
经过实体图处理获得每个表格中的实体节点的特征表示后, 通过注意力聚合机制来融
合不同表格以及不同实体之间的信息, 并利用信息融合机制感知声明特 征表示;
步骤5, 获取最终对声明真实性的预测结果
将融合信息层输出的表格表示作为全连接层分类器的输入, 得到一组预测输出, 表示
根据每一个表格获得的对声明的预测; 使用联合建模表格证据的检索重排序以及声明验证
过程的方法, 获取最佳证据表格并得到声明的最终验证结果。
2.根据权利要求1所述的基于表格检索和实体图推理 的事实验证方法, 其特征在于, 所
述步骤1具体包括如下 过程:
首先计算表格中每 个单元包含的字词bi ‑gram的TF ‑IDF, 得到表格的TF ‑IDF向量表示:
然后, 在文本声明和表格单元或者表格标题之间搜索最长的子字符串匹配
对, 将匹配的短语表示 为链接实体, 并对链接 到的实体进行bi ‑gram的TF ‑IDF向量表示:
计算文本声明和表格之间的得分, 计算方式如式(1)所示:
将得分排名前k的表格作为检索到的证据集 合Ts。
3.根据权利要求1所述的基于表格检索和实体图推理 的事实验证方法, 其特征在于, 所
述步骤2具体包括如下 过程:
子步骤2‑1: 骤将Ts中的每一个表格ti与文本声明s进行连接, 在连接后的序列前添加
[CLS]标识符, 然后把这个长序列作为BERT预训练模型的输入, 并将输出的[CLS]标识符的
特征表示作为每一个 证据表格的特 征编码表示
如公式(2):
ri=BERT(ti,s) (2)
同时, BERT模型输出对表格的编码表示
以及对文本声明的编码表示
其中L1和L2分别表示表格的长度和文本声明的长度;
子步骤2‑2: 对表格证据中涉及的实体进行识别, 使用BERTNER作为实体识别工具来从权 利 要 求 书 1/4 页
2
CN 114997155 A
2表格证据中提取实体, 并直接利用与实体相关的表格单元内容来生成实体表示; 具体包括:
通过构建一个二进制矩阵Me来记录实体
与表格中 每一个token之间的关系; 模型通
过在BERT编码器之上 构建一个全连接层, 将表格表示的向量维度进行转换使得
计算过程如式(3):
通过将二进制矩阵Me与表格表示ti相乘来保留与实体相关的行, 然后通过平均池化层
以及最大池化层的连接作为实体的表示Ei, 具体计算过程如下 所示:
其中, mean‑pool和max ‑pool分别 代表平均池化操作和最大池化操作, ⊙代表矩阵的元
素相乘(element ‑wise), 最终可以得到ti中的实体表示:
则所有检
索到的表格 证据中的实体表示 为: E=[E1,...,Ek]=[e1,…,em]。
4.根据权利要求3所述的基于表格检索和实体图推理 的事实验证方法, 其特征在于, 所
述子步骤2‑2中, 若矩阵中Me(i,j)=1, 则表示表格中的第j个tok en属于实体ei范围内, 若为
0则代表这个字符与该实体无关。
5.根据权利要求1所述的基于表格检索和实体图推理 的事实验证方法, 其特征在于, 所
述步骤3具体包括如下 过程:
子步骤3‑1: 首先, 模型根据声明中字符的平均池化结果将声明节点初始化为如式(7)
所示的
然后, 通过计算一个选择门g来计算声明与实体之间的相关性, 并可获得实体节点的初
始表示E(0), 计算过程如下 所示:
g=σ([ λ1,…, λm]) (9)
E(0)=gE=[g1e1,…,gmem] (10)
子步骤3‑2: 采用GAT来传播节点信息以进行推理; 图中节点的初始 表示为
包含m个实体节点以及一个文本声明节点; 获得第t ‑1层的节
点表示
后, 通过一个图注意力层来得到第t层的节点表示, 图
注意力层分为注意力系数计算以及结点间的加权求和;
首先通过一个线性层对上一层获得的实体表示进行处 理, 计算过程如式(1 1):
其中,
是模型的可训练参数, 然后通过共享注意力机制计算表示权 利 要 求 书 2/4 页
3
CN 114997155 A
3
专利 一种基于表格检索和实体图推理的事实验证方法与装置
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:08:28上传分享