(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210563429.6
(22)申请日 2022.05.20
(71)申请人 北京工业大 学
地址 100124 北京市朝阳区平乐园10 0号
(72)发明人 张晓丹 宋晓 冀俊忠
(74)专利代理 机构 北京思海天达知识产权代理
有限公司 1 1203
专利代理师 张慧
(51)Int.Cl.
G16H 15/00(2018.01)
G16H 50/70(2018.01)
G06V 10/42(2022.01)
G06V 10/74(2022.01)
G06V 10/82(2022.01)
G06V 30/418(2022.01)G06F 40/30(2020.01)
(54)发明名称
一种基于跨模态对比注意力的医学报告自
动生成方法
(57)摘要
本发明涉及一种基于跨模态对比注意力的
医学报告自动生成的方法, 具体分为编码和解码
两个阶段, 编码阶段包含三个子模块: 视觉注意
力模块VAM、 视觉对比注意力模块VCAM和跨模态
注意力模块CAM, 其中, VAM提取输入图像的视觉
特征; 另外, 通过对比当前图像和过往相似案例
图像之间的视觉差异性和相似性: V CAM利用差异
性引导注意力模型关注当前图像独特的异常视
觉区域; CMAM利用相似性引导注意力模型实现对
过往相似案例报告中有效词的跨模态匹配。 解码
阶段由并行注意力模块PAM组成, 并行计算编码
阶段得到的编码特征来指导生 成医学报告。 本发
明在自然语言评价指标和临床评价指标上做了
充分实验, 实验结果展示了所提出方法的有效
性。
权利要求书3页 说明书10页 附图3页
CN 115394397 A
2022.11.25
CN 115394397 A
1.一种基于跨模态对比注意力的医学报告自动生成的方法, 其特征在于: 该方法包含
编码和解码两个阶段, 具体步骤如下:
步骤(1)数据准备: 获取医学报告生成数据集并预处理得到训练数据集, 并构建案例库
其中, 数据集中包含医学图像数据及其对应的医学报告数据, 预处理用于得到医学图
像数据的图像空 间特征X和全局特征
以及将医学报告数据进行词嵌入映射为向量
案例
库
内包括多个案例;
步骤(2)编码阶段, 用于提取待处理图像I的视觉注意力特征Va, 待处理图像I与相似案
例的视觉对比注意力特征, 以及待处理图像I与相似案例的跨模态注意力特征, 其中, 视觉
注意力特征Va用于表征图像I自身的病灶信息, 视觉对比注 意力特征Vca用于表征图像I与案
例图像的特 征对比, 跨模态 注意力特 征Cra用于表征对案例报告中有效单词的跨模态匹配;
所述相似案例的选取方法为: 计算待处理图像I 的全局特征
与案例库
中每个案例
的全局特征的余弦相似度, 选取最大的前NK个余弦相似度对应的案例作为与待处理图像I
最相似的NK个案例
步骤(3)解码阶段: 利用每一张相似案例生成一份待处理图像I的完整医学报告; 选取
自然语言评价指标最优的医学报告作为 最终的报告。
2.根据权利要求1所述的一种基于跨模态对比注意力的医学报告自动生成的方法, 进
一步的, 数据预处 理具体包括:
使用特征提取器模型CNN, 完成对数据集中所有医学图像数据Img的预编码, 得到图像
空间特征X和全局特 征
对数据集中 医学报告数据R进行词嵌入映射 为向量
其中X、
和
的计算公式如下:
X=CNN(Img),
其中, CNN( ·)表示卷积神经网络, max_pooling( ·)表示最大池化下采样, Embedding
(·)表示词嵌入。
3.根据权利要求2所述的一种基于跨模态对比注意力的医学报告自动生成的方法, 进
一步的, 构建案例库的具体步骤 包括:
所述案例库由训练集的所有数据得到, 通过预处理提取得到训练集中第d条数据的空
间特征Xd、 全局特征
及其对应的医学报告词嵌入向量
其共同组成一个三元组
其中cased将作为第d条案例; 随后, 对训练集中的所有数据做如上
操作, 共同组成案例库
其中N表示训练集的数据量。
4.根据权利要求1所述的一种基于跨模态对比注意力的医学报告自动生成的方法, 其
特征在于: 所述待处 理图像的视 觉注意力特 征Va的计算方法如下:
将待处理 图像的图像空间特征XI输入视觉注意力模块VAM得到待处理图像的视觉注意
力特征Va, 如下公式:
Va=VAM(XI),权 利 要 求 书 1/3 页
2
CN 115394397 A
2其中, VAM(·)表示视觉注意力模块的计算公式,
VAM(XI)=FFN(MHA(XI,XI,XI)),
MHA(q,k,v)=[head1,head2,…,headn]WO,
FFN(x)=max(0,xW1+b1)W2+b2.
对于上述公式, 其中, MHA( ·)表示计算多头注意力特征, 其将输入数据平均划分为多
个子空间并由多个注意力头 分别关注, FFN( ·)表示前馈神经网络; [ ·,…,·]表示对张量
的拼接操作, head1,…, headn表示第1到第n个注意力头, 用于关注输入数据的n个子空 间, q、
k、 v表示公式的输入, WO是学习的参数; headi表示第i个注意力头, 该注意力头将关注输入数
据的第i个子空间, Attni(·)表示其注意力特征的计算, softmax( ·)是常用的激活函数,
qi、 ki、 vi是第i个注意力头headi的输入, 即输入数据划分出的第i个子空间, dk是固定的常
量; x表示公式的输入, W1、 W2是学习的参数, b1、 b2是偏差值。 这里介绍的MHA( ·)和FFN(·)
将继续用于后续计算, 其中学习的参数分别由不同模块的训练数据得到 。
5.根据权利要求4所述的一种基于跨模态对比注意力的医学报告自动生成的方法, 其
特征在于: 所述待处 理图像I与相似案例的视 觉对比注意力特 征的计算方法为,
1), 计算待处理图像I与每个相似案例的视觉对比特征, 其中, 待处理图像I与第d个相
似案例caseI,d的视觉对比特 征Vc的计算公式如下:
DI=XI‑XI,d,
Vc=XI+DI.
其中, XI,d表示案例caseI,d的空间特 征;
2), 将视觉对比特征输入视觉对比注意力 模块VCAM得到视觉对比注意力特征, 其中, 视
觉对比特 征Vc输入视觉对比注意力模块VCAM得到的视 觉对比注意力特 征Vca由下式表示:
Vca=VCAM(Vc),
其中, VCAM( ·)表示视觉对比注意力模块的计算公式。
6.根据权利要求5所述的一种基于跨模态对比注意力的医学报告自动生成的方法, 其
特征在于: 所述视 觉对比注意力特 征Vca进一步表示如下:
Vca=VCAM(Vc),
VCAM(Vc)=FFN(MHA(Vc,Vc,Vc))。
7.根据权利要求4所述的一种基于跨模态对比注意力的医学报告自动生成的方法, 进
一步的, 待处理图像I与第d个相似案例caseI,d的跨模态注意力特征Cra的计算方法如下: 对
于视觉对比特征Vc和相似案例caseI,d的报告
使用跨模态对比注意力模块CAM, 利用多头
注意力机制实现Vc与
的跨模态匹配, 得到跨模态 注意力特 征Cra, 具体计算公式如下:
其中, CAM( ·)表示跨模态注意力模块的计算公式, d∈{1, …,NK}, 其具体计算步骤如
下:
。权 利 要 求 书 2/3 页
3
CN 115394397 A
3
专利 一种基于跨模态对比注意力的医学报告自动生成方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:57上传分享