专利 一种基于跨模态对比注意力的医学报告自动生成方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210563429.6 (22)申请日 2022.05.20 (71)申请人北京工业大学地址 100124 北京市朝阳区平乐园10 0号 (72)发明人张晓丹　宋晓　冀俊忠　 (74)专利代理机构北京思海天达知识产权代理有限公司 1 1203 专利代理师张慧 (51)Int.Cl. G16H 15/00(2018.01) G16H 50/70(2018.01) G06V 10/42(2022.01) G06V 10/74(2022.01) G06V 10/82(2022.01) G06V 30/418(2022.01)G06F 40/30(2020.01) (54)发明名称一种基于跨模态对比注意力的医学报告自动生成方法 (57)摘要本发明涉及一种基于跨模态对比注意力的医学报告自动生成的方法，具体分为编码和解码两个阶段，编码阶段包含三个子模块：视觉注意力模块VAM、视觉对比注意力模块VCAM和跨模态注意力模块CAM，其中， VAM提取输入图像的视觉特征；另外，通过对比当前图像和过往相似案例图像之间的视觉差异性和相似性： V CAM利用差异性引导注意力模型关注当前图像独特的异常视觉区域； CMAM利用相似性引导注意力模型实现对过往相似案例报告中有效词的跨模态匹配。解码阶段由并行注意力模块PAM组成，并行计算编码阶段得到的编码特征来指导生成医学报告。本发明在自然语言评价指标和临床评价指标上做了充分实验，实验结果展示了所提出方法的有效性。权利要求书3页说明书10页附图3页 CN 115394397 A 2022.11.25 CN 115394397 A 1.一种基于跨模态对比注意力的医学报告自动生成的方法，其特征在于：该方法包含编码和解码两个阶段，具体步骤如下：步骤(1)数据准备：获取医学报告生成数据集并预处理得到训练数据集，并构建案例库其中，数据集中包含医学图像数据及其对应的医学报告数据，预处理用于得到医学图像数据的图像空间特征X和全局特征以及将医学报告数据进行词嵌入映射为向量案例库内包括多个案例；步骤(2)编码阶段，用于提取待处理图像I的视觉注意力特征Va，待处理图像I与相似案例的视觉对比注意力特征，以及待处理图像I与相似案例的跨模态注意力特征，其中，视觉注意力特征Va用于表征图像I自身的病灶信息，视觉对比注意力特征Vca用于表征图像I与案例图像的特征对比，跨模态注意力特征Cra用于表征对案例报告中有效单词的跨模态匹配；所述相似案例的选取方法为：计算待处理图像I 的全局特征与案例库中每个案例的全局特征的余弦相似度，选取最大的前NK个余弦相似度对应的案例作为与待处理图像I 最相似的NK个案例步骤(3)解码阶段：利用每一张相似案例生成一份待处理图像I的完整医学报告；选取自然语言评价指标最优的医学报告作为最终的报告。 2.根据权利要求1所述的一种基于跨模态对比注意力的医学报告自动生成的方法，进一步的，数据预处理具体包括：使用特征提取器模型CNN，完成对数据集中所有医学图像数据Img的预编码，得到图像空间特征X和全局特征对数据集中医学报告数据R进行词嵌入映射为向量其中X、和的计算公式如下： X＝CNN(Img), 其中， CNN( ·)表示卷积神经网络， max_pooling( ·)表示最大池化下采样， Embedding (·)表示词嵌入。 3.根据权利要求2所述的一种基于跨模态对比注意力的医学报告自动生成的方法，进一步的，构建案例库的具体步骤包括：所述案例库由训练集的所有数据得到，通过预处理提取得到训练集中第d条数据的空间特征Xd、全局特征及其对应的医学报告词嵌入向量其共同组成一个三元组其中cased将作为第d条案例；随后，对训练集中的所有数据做如上操作，共同组成案例库其中N表示训练集的数据量。 4.根据权利要求1所述的一种基于跨模态对比注意力的医学报告自动生成的方法，其特征在于：所述待处理图像的视觉注意力特征Va的计算方法如下：将待处理图像的图像空间特征XI输入视觉注意力模块VAM得到待处理图像的视觉注意力特征Va，如下公式： Va＝VAM(XI),权　利　要　求　书 1/3 页 2 CN 115394397 A 2其中， VAM(·)表示视觉注意力模块的计算公式， VAM(XI)＝FFN(MHA(XI,XI,XI)), MHA(q,k,v)＝[head1,head2,…,headn]WO, FFN(x)＝max(0,xW1+b1)W2+b2. 对于上述公式，其中， MHA( ·)表示计算多头注意力特征，其将输入数据平均划分为多个子空间并由多个注意力头分别关注， FFN( ·)表示前馈神经网络； [ ·,…,·]表示对张量的拼接操作， head1，…， headn表示第1到第n个注意力头，用于关注输入数据的n个子空间， q、 k、 v表示公式的输入， WO是学习的参数； headi表示第i个注意力头，该注意力头将关注输入数据的第i个子空间， Attni(·)表示其注意力特征的计算， softmax( ·)是常用的激活函数， qi、 ki、 vi是第i个注意力头headi的输入，即输入数据划分出的第i个子空间， dk是固定的常量； x表示公式的输入， W1、 W2是学习的参数， b1、 b2是偏差值。这里介绍的MHA( ·)和FFN(·) 将继续用于后续计算，其中学习的参数分别由不同模块的训练数据得到。 5.根据权利要求4所述的一种基于跨模态对比注意力的医学报告自动生成的方法，其特征在于：所述待处理图像I与相似案例的视觉对比注意力特征的计算方法为， 1)，计算待处理图像I与每个相似案例的视觉对比特征，其中，待处理图像I与第d个相似案例caseI,d的视觉对比特征Vc的计算公式如下： DI＝XI‑XI,d, Vc＝XI+DI. 其中， XI,d表示案例caseI,d的空间特征； 2)，将视觉对比特征输入视觉对比注意力模块VCAM得到视觉对比注意力特征，其中，视觉对比特征Vc输入视觉对比注意力模块VCAM得到的视觉对比注意力特征Vca由下式表示： Vca＝VCAM(Vc)，其中， VCAM( ·)表示视觉对比注意力模块的计算公式。 6.根据权利要求5所述的一种基于跨模态对比注意力的医学报告自动生成的方法，其特征在于：所述视觉对比注意力特征Vca进一步表示如下： Vca＝VCAM(Vc)， VCAM(Vc)＝FFN(MHA(Vc,Vc,Vc))。 7.根据权利要求4所述的一种基于跨模态对比注意力的医学报告自动生成的方法，进一步的，待处理图像I与第d个相似案例caseI,d的跨模态注意力特征Cra的计算方法如下：对于视觉对比特征Vc和相似案例caseI,d的报告使用跨模态对比注意力模块CAM，利用多头注意力机制实现Vc与的跨模态匹配，得到跨模态注意力特征Cra，具体计算公式如下：其中， CAM( ·)表示跨模态注意力模块的计算公式， d∈{1, …,NK}，其具体计算步骤如下：。权　利　要　求　书 2/3 页 3 CN 115394397 A 3

专利 一种基于跨模态对比注意力的医学报告自动生成方法

专利一种基于跨模态对比注意力的医学报告自动生成方法