【大连民族大学计算机科学与工程学院】王瑞团队在《生物医学工程学杂志》发表论文《基于图像描述提示的图像感知生成式医学视觉问答方法》。该研究针对医学视觉问答(MVQA)数据集规模有限、标注质量不均导致的模型过拟合问题,提出融合图像描述提示的生成式解决方案,实现低资源领域高效特征提取与灵活准确的答案输出,为计算机辅助诊断和远程医疗发展提供技术支撑。
MVQA作为多模态机器学习核心任务,能为医患提供诊断建议与决策支持,在精准医疗领域意义重大。但现有方法依赖额外数据集预训练,不仅增加计算成本,还存在答案生成不灵活、泛化能力弱等缺陷,难以满足临床实际需求。

团队创新设计双管道模型架构,突破传统方法局限。图像管道通过ViT与ResNet双流视觉特征提取器,分别捕捉医学图像全局结构与局部病变细节,再经渐进双线性注意力交互模块融合多层次特征;文本管道借助VisualGLM模型生成医学图像描述提示,结合ITE编码器过滤噪声信息,引导模型深度理解图像与问题的关联。最终通过图像感知生成式模型,以自回归方式生成答案,打破预定义标签限制。
实验在VQA-RAD和SLAKE两大公开数据集上验证,该方法在开放性问题、封闭性问题及总体准确率上均优于11种主流模型。其中在VQA-RAD数据集总体准确率达78.0%,SLAKE数据集达84.7%,且无需额外数据集预训练,计算成本更低。消融实验证实,双流特征提取、图像描述提示与生成式预测三大模块协同作用,显著提升了模型的泛化能力与答案灵活性。
该方法可精准聚焦病变区域,为医学影像诊断提供高效辅助工具,未来将优化图像描述过滤算法,并融入中文医学语料,拓展多语言应用场景,进一步推动MVQA技术在临床中的落地。