发表学术论文网

基于图像描述提示的图像感知生成式医学视觉问答方法

  医学视觉问答(MVQA)在计算机辅助诊断和远程医疗领域发挥着关键作用。由于MVQA数据集规模有限且标注质量参差不齐,现有方法大多借助额外数据集进行预训练,并运用判别式公式从预定义标签集合内预测答案,这种方式使得模型在低资源域中易出现过拟合现象。针对这些问题,本研究提出一种基于图像描述提示的图像感知生成式MVQA方法。该方法设计了双流视觉特征提取器结合渐进双线性注意力交互模块以提取多层次图像特征,且提出图像描述提示方法引导模型更有效地理解图像信息,最后利用图像感知的生成式模型生成答案。实验证明,本方法在MVQA任务上的性能优于现有模型,能够在低资源领域以较低计算成本实现高效的视觉特征提取以及灵活、准确的答案输出,对于实现个性化精准医疗、减轻医疗负担和提高医疗诊断效率具有重要意义。

  关键词:计算机辅助诊断;医学视觉问答;图像描述提示;图像感知的生成式模型

  论文《基于图像描述提示的图像感知生成式医学视觉问答方法》发表在《生物医学工程学杂志》,版权归《生物医学工程学杂志》所有。本文来自网络平台,仅供参考。

本研究所提出方法的模型图

  0 引言

  医学视觉问答(medical visual question answering, MVQA)是一种流行的多模态机器学习任务,旨在通过图像的内容来回答与医学相关的问题。在现代医疗体系中,MVQA不仅可以充当虚拟放射科医生[1],帮助患者获得及时、准确的诊断建议,而且也能帮助医生获取第二诊断意见,提供决策支持,对于实现个性化精准医疗、减轻医疗负担和提高医疗诊断效率具有重要意义。

  受通用领域视觉问答(visual question answering, VQA)的启发,现有的MVQA方法大多采用在额外数据集上进行预训练结合注意力机制的策略[2-3],在特征提取效果和答案预测方面取得了一定成果。例如:Joshi等[4]使用多个注意头来捕捉医学图像及其各自模式之间的依赖关系。Liu等[5]提出了一种对比预训练和表征提炼(contrastive pretraining and representation distillation, CPRD)框架,通过学习放射学图像的可转移特征表示,提取了一个轻量级的视觉特征提取器。Chen等[6]提出了一种基于多模态掩码自编码器(multimodal masked autoencoder, M3AE)的学习范式,从随机掩蔽的图像和文本中重建缺失的像素和标记来学习跨模态领域知识,进而从医学图像和文本中提取有效的视觉和语言表示。

  近年来,生成式模型在MVQA领域的应用逐渐成为研究热点。Ossowski等[7]提出了一种通过多模态提示检索的增强生成模型,借助多模态提示检索,将检索到的线索和多模态特征集成到自由文本答案中。Chen等[8]集成了文本和多模态编码器,通过多任务学习将生成模型应用到生物医学领域,将图像文本特征与大语言模型有机结合。此外,融合外部提示来集成互补知识的方法,也展现出了优越的性能[9]。Lin等[10]提出了一种医学知识增强多模态预训练(medical knowledge enhanced multimodal pretraining, MOTOR)新范式,将基本医学知识融入一般预训练过程,推动了模型的发展。还有一些工作使用现有的大语言模型对图像数据集进行微调[11],借助其强大的文本处理能力生成连贯的图像标题,为多模态任务提供有效的提示,例如:基于通用语言模型(general language model, GLM)的视觉GLM(VisualGLM)在两个开放的胸部X光数据集上进行微调[12],实现了中国首个专注于胸部X光诊断的多模态大型模型,其在胸部X光诊断任务中展现出较高的准确性,验证了VisualGLM在医学领域的可迁移性。

  尽管MVQA技术在许多领域取得了显著的进展,但仍然面临一系列挑战。首先,现有的方法侧重于使用额外数据集对模型进行预训练,然后对其进行微调[13]。随着模型规模不断增大,这种方法不仅增加了计算成本,还容易引发过拟合问题,导致模型在实际应用中的泛化能力下降[14]。其次,目前方法大多依赖于判别式方法,限制了模型的整体泛化性能和生成答案的灵活性。即便少数工作使用生成模型来预测答案,也只是将自然语言作为图像和生成模型之间的中介,没有充分挖掘图像信息在模型理解中的重要作用。最后,使用图像描述提示来增强模型对图像上下文理解能力的方法,虽然在通用领域的VQA中已经得到验证,但在生物医学领域尚未得到广泛的研究。

  针对上述问题,本研究提出了一种新颖的基于图像描述提示的图像感知生成式MVQA方法,期望在数据稀缺且不使用额外数据集进行预训练的前提下,实现高效的视觉特征提取,以及灵活、准确的答案输出。

  1 方法

  本研究提出的模型总体结构如图1所示,紫色部分为用户的输入,包括图像输入和问题输入两部分。模型分为文本和图像两个工作管道,文本管道将用户的问题输入使用预训练的VisualGLM模型生成图像描述,再与原问题输入一起构建文字提示;图像管道将用户的图像输入通过双流视觉特征提取器结合渐进双线性注意力交互模块获得多尺度图像特征,并使用视觉信息挖掘模块获得与文本相关的图像特征。最后,使用图像感知的生成式模型学习两个管道获得的文字提示与图像特征,以自回归的方式生成答案。下文将对该流程每个模块详细描述。

  图1 本研究所提出方法的模型图 Fig.1 Model diagram of the proposed method in this study

  1.1 问题和图像表示

  对于用户的问题输入,本研究使用预训练的文本到文本传输变换器(text-to-text transfer transformer, T5)的编码器嵌入矩阵进行编码[15],将问题文本转换成模型能够理解的问题嵌入。根据T5的子词对组合文本分词化,进行嵌入查找,以从T5的输入嵌入矩阵中获取相应的嵌入向量。通过将文本问题分解为一系列的离散标记(Q_{i}),每个标记对应于一个特定的语义或语法特征,如式(1)所示:

  [Q_{i}=varphileft(q_{i} ight)]

  其中,(q_{i})为输入的问题,(varphi)为文本分词函数。

  对于用户的医学图像输入,相比普通图像具有更丰富的语义信息,一般的特征提取方法容易忽略图像中的部分信息,影响推理过程。所以本研究设计了一个双流视觉特征提取器提取图像的全局特征和局部特征。全局视觉特征提取基于预训练视觉变换器(vision transformer, ViT)模型,使用其倒数第二层的输出结果作为图像标记嵌入(V1_{i}),能够提取包括图像的整体结构、器官之间的相对位置关系等特征;局部视觉特征提取基于预训练残差网络(residual network, ResNet),使用其倒数第二层的输出结果作为图像标记嵌入(V2_{i}),能够提取包括医学图像中边缘、密度、形状、位置等病变部位的细微特征,如式(2)~式(3)所示:

  [V1_{i}=psi_{v}left(v_{i} ight) quad(2)]

  [V2_{i}=psi_{R}left(v_{i} ight) quad(3)]

  其中,(v_{i})为输入的图片,(psi_{v}(cdot))、(psi_{R}(cdot))分别代表使用ViT和ResNet提取图像特征。为了能够同时使用医学图像的全局特征和局部特征,本研究设计了渐进双线性注意力交互模块,将局部特征和全局特征进行联合理解,得到融合视觉特征,如图2所示。

  图2 渐进双线性视觉注意力交互过程图 Fig.2 Diagram of progressive bilinear visual attention interaction process

  渐进双线性视觉注意力交互模块遵循两阶段特征融合管道。第一阶段使用双线性注意力网络(bilinear attention networks, BAN)融合图像特征得到联合表示向量(f^{(1)})[16],如式(4)所示:

  [f^{(1)}=sum_{i}^{M} sum_{j}^{L} A_{i j}left(V1_{i} W_{v1} ight)left(V2_{i} W_{v2} ight) quad(4)]

  其中,M和L为(V1_{i})和(V2_{i})线性化的长度,(W_{v1})、(W_{v2})为学习参数,(A_{ij})为双线性注意力图,其计算式如式(5)所示:

  [A_{i j}=sigmaleft(left(left(mathbb{I} cdot(p)^{T} ight) circ V1_{i} W_{v1}' ight) V2_{i} W_{v2}' ight) quad(5)]

  其中,P、(W'_{v1})、(W'_{v2})为学习参数,运算符(circ)代表哈达玛积,(sigma)代表归一化指数函数(softmax),T代表转置变化,(mathbb{I})为全1向量。

  第二阶段,模型将(f^{(1)})与(V1_{i})和(V2_{i})拼接,经过下采样后得到了融合视觉特征(f^{(2)}),下文以融合视觉特征V代替表示,如式(6)所示:

  [f^{(2)}=fleft(f^{(1)} oplus V1_{i} oplus V2_{i} ight) quad(6)]

  其中,(oplus)代表拼接函数,(f(cdot))代表下采样函数。

  1.2 构建图像描述提示

  使用图像描述能够充分利用医学图像中的专业医学知识,作为外部信息代替预训练过程中学习到的上下文信息,引导模型更好地理解图像与问题之间的关联。因此,本研究提出了一种图像描述提示增强方法。

  VisualGLM是一种多模态问答模型,在结合图像信息生成自然语言描述方面具有一定优势,在经过特定的处理步骤后,其生成的描述能为模型提供有价值的信息。所以,使用预训练的多模态问答模型VisualGLM为给定的医学图像生成多组不同的描述性提示(y_{i}),这些提示旨在捕捉与图像内容相关的语义信息,如式(7)所示:

  [y_{i}= auleft(v_{i}, q_{i} ight) quad(7)]

  其中,( au)代表VisualGLM生成图像描述函数,(v_{i})和(q_{i})分别代表输入的图像和问题。

  为了去除生成描述中的噪声信息,使用基于图像的文本编码器(image-grounded text encoder, ITE)[17]来确定与问题相关的图像区域,ITE综合考虑了图像的视觉特征和文本描述的语义特征,它为任何一对图像和文本分配了一个相似度分数,能够从多个维度衡量两者之间的相似程度[18]。最后,设定匹配分数阈值(本研究中为0.5),过滤掉匹配分数小于该阈值的图像描述,得到高质量描述。在答案预测模块之前,将最终的图像描述编码为提示嵌入(Y_{i}),其计算式如式(8)所示:

  [Y_{i}=varphileft(y_{i} ight) quad(8)]

  其中,(varphi)为文本分词函数,(y_{i})为生成的图像描述。

  1.3 图像感知的生成式答案预测

  使用生成式模型来预测自由文本,能够用较少的多模态数据集取得优异的结果,避免传统判别式方法预测答案导致的泛化能力差等问题。因此,本研究提出了一种图像感知的生成式方法,通过视觉信息挖掘模块获得与问题相关的图像信息,将其和问题嵌入、提示嵌入一起通过自回归生成答案模块获得预测答案。

  为了使模型在处理图像信息时能够聚焦于与文本紧密相关的部分,提高信息利用的效率,利用交叉注意力机制动态地捕捉上文式(6)得到的融合视觉特征V与问题Q和描述Y之间的关联,即得到高度关联的图像特征(V'),如式(9)~式(10)所示:

  [V'=sigmaleft(frac{V W^{T}}{sqrt{d_{W}}} ight) W]

  其中,W是Q与Y拼接而成的特征表示,(d_{W})代表W的维度,T代表转置变换,(oplus)代表拼接函数,(sigma)代表softmax激活函数。然后,将上文最终得到的图像嵌入(V')、问题嵌入Q和图像描述嵌入Y的拼接组合作为T5模型中后续编码器层的输入,并从顶部编码器层获得组合序列的融合表示X,其计算式如式(11)所示:

  [X=omega(V' oplus Q oplus Y) quad(11)]

  其中,(oplus)代表拼接函数,(omega(cdot))为T5的编码器。最后,利用T5解码器进行自回归预测词汇表中的单词,通过条件概率来表述生成答案字符串z的可能性P,如式(12)所示:

  [p=prod_{j=0}^{|z|} P_{gen }left(z_{j} | X, z

  其中,(prod)代表连乘运算,(P_{gen })为生成概率函数,(z_{j})是生成的答案字符串片段。本文使用训练集上条件概率和真实答案字符串z之间的交叉熵损失(cross-entropy loss)来优化生成模型。这种表述允许更灵活的答案输出,可能会产生含义基本相同但形式有细微差异的答案,例如同义词。为了解决这些细微的差异,遵循先前的工作[7],使用字符串匹配方法,采用莱文斯坦距离(Levenshtein distance)计算生成答案与候选答案的相似性,选择最高分作为最终预测答案。

  2 实验和结果

  2.1 数据集

  本研究在两个可以公开获取的MVQA数据集上评估所提出方法的性能。其中,放射学VQA数据集(VQA in radiology database, VQA-RAD)[19]包含315张放射学图像和3515个相关问题,这些图像可以进一步细分为头部、胸部和腹部三个子类别,问题可以细分为11个不同的类型。另一个语义标记的知识增强数据集(semantically-labeled knowledge-enhanced dataset, SLAKE)[20]包括642张多医学领域图像和超过14000对中英文问答对,这些图像可以进一步细分为头、脖子、胸部、腹部和盆腔等5个子类别,问题可以细分为10个不同的类型,本研究只使用其英语部分来匹配T5预训练语料库的语言。

  2.2 实现细节

  模型使用ViT和ResNet结构作为双流视觉特征提取模型的主干[21],并使用PubMed对比语言-图像预训练(PubMed contrastive language-image pre-training, PubMedCLIP)[22]的权重进行初始化,使用T5自带分词器对问题进行处理,使用VisualGLM模型生成一组图像描述,然后对输入的图像特征、问题以及生成的描述进行拼接后,使用T5模型进行自回归的答案生成。

  实验在一台配备图形处理器NVIDIA RTX 3090(NVIDIA Corporation, 美国)的服务器上进行,在深度学习框架PyTorch 1.10(Meta Platforms Inc., 美国)版本中实现。本研究总共对模型进行了150轮训练,批次大小为32。训练中使用预测答案和真实答案的交叉熵损失来优化生成模型,优化器使用权重衰减的自适应矩估计(adaptive moment estimation with weight decay, AdamW),设置权重衰减系数为0.002,初始学习率为(1×10^{-4}),通过余弦退火衰减到(2×10^{-5})。

  2.3 模型对比

  为了证明本文方法的有效性,基于前述两个相同的公开数据集(VQA-RAD和SLAKE),本文实验对比了目前常见的堆叠注意力网络(stacked attention networks, SAN)、BAN、混合视觉特征增强(mixture of enhanced visual features, MEVF)、多元模型量化(multiple meta-model quantifying, MMQ)、条件三元组混合MVQA(conditional triplet mixup for MVQA, VQAMix)、基于注意力的多模态对齐模型(attention-based multimodal alignment model, AMAM)、CPRD、PubMedCLIP、MOTOR、M3AE、生物医学文档对比语言-图像预训练(contrastive language-image pre-training using biomedical documents, PMC-CLIP)共11个解决同类问题的模型[3,5-6,10,16,22-27],如表1所示,给出了对比实验结果。与之前的研究一致,本研究采用准确率作为性能度量指标[7]。

  在VQA-RAD数据集上,本方法在开放性(open)问题上的准确率为69.1%,封闭性(closed)问题上的准确率为84.0%,总体(overall)准确率达到了78.0%。在SLAKE数据集上,open问题的准确率为83.0%,closed问题的准确率为87.6%,overall准确率达到了84.7%。这一结果相比其他方法取得显著提升。

  这一成果得益于本研究更好地提取了医学图像的全局和局部特征,用图像描述引导生成式模型更好地理解图像和问题的深层次信息,从而在open和closed问题类型上均取得性能上的提升。

  表1 在VQA-RAD和SLAKE两个数据集上与不同方法的对比结果

  |文献|方法|VQA-RAD| | |SLAKE| | |

  | | |open|closed|overall|open|closed|overall|

  |[3]|SAN|31.3%|69.5%|54.3%|74.0%|79.1%|76.0%|

  |[16]|BAN|37.4%|72.1%|58.3%|74.6%|79.1%|76.3%|

  |[23]|MEVF|43.9%|75.1%|62.6%|77.8%|79.8%|78.6%|

  |[24]|MMQ|52.0%|72.4%|64.3%| - | - | - |

  |[25]|VQAMix|56.6%|79.6%|70.4%| - | - | - |

  |[26]|AMAM|63.8%|80.3%|73.3%| - | - | - |

  |[5]|CPRD|61.1%|80.4%|72.7%|79.5%|83.4%|81.1%|

  |[22]|PubMedCLIP|60.1%|80.0%|72.1%|78.4%|82.5%|80.1%|

  |[10]|MOTOR|64.8%|74.6%|70.7%|81.0%|84.1%|82.2%|

  |[6]|M3AE|67.2%|83.5%|77.0%|80.3%|87.8%|83.2%|

  |[27]|PMC-CLIP|67.0%|83.7%|77.6%|81.9%|87.6%|84.3%|

  | - |本文方法|69.1%|84.0%|78.0%|83.0%|87.6%|84.7%|

  2.4 消融实验

  为了进一步验证不同模块的有效性,本研究设计了详尽的消融实验,如表2所示。实验涉及三个关键模块:①多层次图像特征表示模块(multi-level image feature representation, MIR),使用双流视觉特征提取器结合渐进双线性注意力交互模块获得多层次图像特征表示,与单独使用ViT提取图像特征进行对比;②图像描述提示模块(image captions prompt, ICP);③图像感知的生成式预测模块(image-aware generative prediction, IAG),与传统的判别式预测方法对比。

  与单独使用ViT提取图像特征、不使用图像描述提示、使用判别式预测方法的基线(Base)模型相比,本研究提出的方法在两个公开数据集(VQA-RAD和SLAKE)的所有指标上均实现了性能提升;融合三个关键模块后,模型性能在两个公开数据集的Open、Closed和Overall问题类型上均有进一步提升。结果表明,整合ViT与ResNet图像特征提取优势能够实现不同视觉域间的特征互补与协同,将图像描述提示引入MVQA能够增强模型对医学图像信息的理解,生成式模型能够生成更灵活的答案,提高模型的泛化能力。本文结合使用MIR、ICP和IAG三个模块,显著提高了模型预测答案的准确率。

  为了进一步验证对双流视觉特征提取器使用不同模型和不同的参数训练策略下的性能情况,本研究继续进行了实验,结果如表3所示,同时使用ResNet和ViT进行特征提取且冻结参数进行训练能够取得最好的效果,在VQA-RAD和SLAKE两个数据集上分别达到了78.0%和84.7%的准确率。这证明了在医学这种低资源领域,盲目采取微调策略会对模型的图像特征提取和理解能力造成一定的影响,为后续研究提供了方向。

  表2 VQA-RAD和SLAKE数据集上的模块消融实验结果

  |模型|VQA-RAD| | |SLAKE| | |

  | |open|closed|overall|open|closed|overall|

  |Base|59.3%|78.0%|70.6%|72.1%|79.6%|75.3%|

  |Base + MIR|66.5%|80.1%|74.7%|76.1%|82.5%|78.6%|

  |Base + ICP|68.1%|79.8%|75.2%|79.3%|83.2%|80.6%|

  |Base + IAG|68.4%|79.3%|75.5%|76.0%|83.4%|78.9%|

  |Base + MIR + ICP|67.4%|83.1%|75.4%|79.3%|85.2%|80.9%|

  |Base + ICP + IAG|68.7%|82.9%|76.9%|82.1%|86.6%|83.4%|

  |本文方法|69.1%|84.0%|78.0%|83.0%|87.6%|84.7%|

  表3 不同视觉特征提取模型和训练策略的实验结果

  |视觉特征提取模型|冻结参数|不冻结参数|VQA-RAD准确率|SLAKE准确率|

  |ResNet|√| - |75.2%|82.3%|

  | | - |√|74.4%|81.8%|

  |ViT|√| - |75.6%|82.5%|

  | | - |√|74.4%|82.1%|

  |ResNet + ViT|√| - |78.0%|84.7%|

  | | - |√|76.9%|84.2%|

  2.5 定性分析

  为了定性验证模型的效果,本研究使用梯度加权类激活映射(gradient-weighted class activation mapping, Grad-CAM)来进行结果可视化[28]。本文展示了一些覆盖在原始图像上的注意力图结果,如图3所示。

  实验结果验证了本文方法在实际应用中的有效性。在回答open类型问题时,本文方法能够准确地关注到相关的病变区域,例如:为了回答“梗死灶在哪里?”,模型准确地突出显示了梗死灶所在的左顶叶区域;为了回答“你会如何描述肾脏的肿块?”,模型正确地覆盖了肾脏的关键部位。对于closed类型问题,本文方法同样表现出色,为了回答“是否有超过一个病变存在?”,模型关注了整个胸部区域。

  图3 MVQA任务中图像注意力图的可视化 Fig.3 Visualization of image attention maps in MVQA tasks

  3 总结

  本研究为MVQA任务引入了一种新颖的基于图像描述提示的图像感知生成式MVQA模型。首先,提出了双流视觉特征提取器结合渐进双线性注意力交互模块提取图像特征,探索了双流视觉特征提取器在不同组合方式及训练策略下的答案预测效果,鼓励了特征提取效果对MVQA推理效果的研究。其次,创新地将医学图像描述作为提示引入MVQA,验证了在低资源领域不使用额外数据集预训练的情况下,图像描述提示对于语境理解能力的提升。最后,提出了图像感知的生成式答案预测方法,打破了传统判别式模型的结果限制和生成式模型的输入限制。实验证明,本文的方法在VQA-RAD和SLAKE两个公开数据集上都表现出相应优势。

  本文作为较早探索将图像描述引入MVQA任务的工作,已取得一定阶段性成果。为进一步提升图像描述提示在MVQA任务中的应用效果,后续研究将系统对比不同多模态模型生成图像描述的性能差异,优化图像描述过滤算法,提高图像描述与医学图像之间的相关性。未来将引入更多中文医学语料对模型进行微调,以支持中英文多语言场景。

  重要声明

  利益冲突声明:本文全体作者均声明不存在利益冲突。

  作者贡献声明:王瑞负责论文整体规划、实验设计与实现、论文初稿的撰写与修改;孟佳娜负责研究课题监管与指导;于玉海负责论文审阅与写作指导;韩思维、李兴豪负责数据整理、数据分析。

  参考文献

  [1] Kovaleva O, Shivade C, Kashyap S, et al. Towards visual dialog for radiology//Proceedings of the 19th SIGBioMed Workshop on Biomedical Language Processing, Online: ACL, 2020: 60-69.

  [2] Dai W, Hou L, Shang L, et al. Enabling multimodal generation on clip via vision-language knowledge distillation. arXiv preprint, 2022, arXiv:2203.06386.

  [3] Yang Z, He X, Gao J, et al. Stacked attention networks for image question answering//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Online: CVPR, 2016: 21-29.

  [4] Joshi V, Mitra P, Bose S. Multi-modal multi-head self-attention for medical VQA. Multimedia Tools and Applications, 2024, 83(14): 42585-42608.

  [5] Liu B, Zhan L M, Wu X M. Contrastive pre-training and representation distillation for medical visual question answering based on radiology images//24th International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI 2021), Cham: Springer International Publishing, 2021: 210-220.

  [6] Chen Z, Du Y, Hu J, et al. Multi-modal masked autoencoders for medical vision-and-language pre-training//International Conference on Medical Image Computing and Computer-Assisted Intervention, Cham: Springer Nature Switzerland, 2022: 679-689.

  [7] Ossowski T, Hu J. Multimodal prompt retrieval for generative visual question answering. arXiv preprint, 2023, arXiv:2306.17675.

  [8] Chen J, Yang D, Jiang Y, et al. MISS: a generative pre-training and fine-tuning approach for Med-VQA//International Conference on Artificial Neural Networks. Cham: Springer Nature Switzerland, 2024: 299-313.

  [9] Marino K, Chen X, Parikh D, et al. Krisp: integrating implicit and symbolic knowledge for open-domain knowledge-based vqa//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Online: CVPR, 2021: 14111-14121.

  [10] Lin B, Chen Z, Li M, et al. Towards medical artificial general intelligence via knowledge-enhanced multimodal pretraining. arXiv preprint, 2023, arXiv:2304.14204.

  [11] Zhan J, Dai J, Ye J, et al. AnyGPT: unified multimodal LLM with discrete sequence modeling. arXiv preprint, 2024, arXiv:2402.12226.

  [12] Du Z, Qian Y, Liu X, et al. GLM: general language model pretraining with autoregressive blank infilling. arXiv preprint, 2021, arXiv:2103.10360.

  [13] Gu T, Yang K, Liu D, et al. LaPA: latent prompt assist model for medical visual question answering//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Online: CVPR, 2024: 4971-4980.

  [14] Liu J, Hu T, Zhang Y, et al. Parameter-efficient transfer learning for medical visual question answering. IEEE Transactions on Emerging Topics in Computational Intelligence, 2023, 8(4): 2816-2826.

  [15] Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer. The Journal of Machine Learning Research, 2020, 21(1): 5485-5551.

  [16] Kim J H, Jun J, Zhang B T. Bilinear attention networks. Advances in Neural Information Processing Systems, 2018, 31: 1-11.

  [17] Li J, Li D, Xiong C, et al. BLIP: bootstrapping language-image pretraining for unified vision-language understanding and generation//International conference on machine learning, Stockholm: PMLR, 2022: 12888-12900.

  [18] Guo J, Li J, Li D, et al. From images to textual prompts: zero-shot visual question answering with frozen large language models//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, Online: CVPR, 2023: 10867-10877.

  [19] Lau J J, Gayen S, Ben Abacha A, et al. A dataset of clinically generated visual questions and answers about radiology images. Scientific Data, 2018, 5: 180251.

  [20] Liu B, Zhan L M, Xu L, et al. SLAKE: a semantically-labeled knowledge-enhanced dataset for medical visual question answering//2021 IEEE 18th International Symposium on Biomedical Imaging (ISBI), Nice: IEEE, 2021: 1650-1654.

  [21] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: transformers for image recognition at scale. arXiv preprint, 2020, arXiv:2010.11929.

  [22] Eslami S, de Melo G, Meinel C. Does clip benefit visual question answering in the medical domain as much as it does in the general domain?. arXiv preprint, 2021, arXiv:2112.13906.

  [23] Nguyen B D, Do T T, Nguyen B X, et al. Overcoming data limitation in medical visual question answering//22nd International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI 2019), Cham: Springer International Publishing, 2019: 522-530.

  [24] Do T, Nguyen B X, Tjiputra E, et al. Multiple meta-model quantifying for medical visual question answering//24th International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI 2021), Cham: Springer International Publishing, 2021: 64-74.

  [25] Gong H, Chen G, Mao M, et al. VQAMix: conditional triplet mixup for medical visual question answering. IEEE Transactions on Medical Imaging, 2022, 41(11): 3332-3343.

  [26] Pan H, He S, Zhang K, et al. AMAM: an attention-based multimodal alignment model for medical visual question answering. Knowledge-Based Systems, 2022, 255: 109763.

  [27] Lin W, Zhao Z, Zhang X, et al. PMC-CLIP: contrastive language-image pre-training using biomedical documents//International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI 2023). Cham: Springer Nature Switzerland, 2023: 525-536.

  [28] Selvaraju R R, Cogswell M, Das A, et al. Grad-CAM: Visual explanations from deep networks via gradient-based localization//Proceedings of the IEEE International Conference on Computer Vision, Online: ICCV, 2017: 618-626.

查阅更多的医学论文文章
热门推荐

微生物应用相关论文投稿

河北省高级经济师课题申报要点介绍

论文怎么写基本结构

上海高级职称评审论文必须一作吗

软著能代替论文吗

期刊约稿是什么意思

论文拒稿后申诉能成功吗

核心期刊书评能跟核心论文一样作为职称材料吗

晋升副高论文版面字数要求

著作的副主编与中文核心期刊的第二作者哪个职称加分多

论文投稿系统中推荐审稿人可以不填吗

申请书号要准备什么材料

职称与论文专题
论文发表指导