摘要。视觉语言预处理(VLP)模型已在众多计算机视觉应用中被证明。在本文中,我们基于图像扫描和电子健康记录中的文本介绍,为医疗领域开发VLP模型,以促进计算机辅助诊断(CAD)。为了实现这一目标,我们介绍了MedBlip,这是一种轻巧的CAD系统,该系统启动了从架子冻结的预训练的图像编码器和大型语言模型中启动VLP。我们合并了一个MEDQFormer模块,以弥合3D医学图像和2D预训练的图像编码器和语言模型之间的差距。为了评估MEDBLIP的有效性,我们从五个公共阿尔茨海默氏病(AD)数据集中收集了30,000多个图像量:ADNI,NACC,OASIS,OASIS,AIBL和MIRIAD。在这个大规模的广告集中,我们的模型在健康,轻度认知障碍(MCI)和AD主题的零摄像分类中表现出了令人印象深刻的表现,并且还显示了其在M3D-VQA-AD数据集中的医学视觉问题An-Swering(VQA)中的能力。代码和预训练模型可在https://github.com/qybc/medblip上找到。
模块化视觉模型(视觉-LLM)与(冷冻)大语言模型(LLMS)和事后状况LLMS对齐图像编码器,以“理解”图像输入。随着丰富的高质量英语图像文本数据以及强大的单语英文LLM的丰富性,研究重点一直放在英语的视觉上。多语言视觉语言模型仍主要通过昂贵的端到端预审计获得,从而产生了相对较小的模型,该模型接受了培训的多语言图像数据,并补充了仅文本的多语言语料库。我们提出了MBLIP,这是第一个Vision-Llm利用Mul-litsiantual LLM,我们以构成有效的方式在消费者级硬件上获得。为此,我们将先前调整为英文LLM调整为新的多语言LLM的图像编码器仅使用几百万个多语言培训示例,这些训练示例来自视觉和语言任务的组合,我们通过机器转换为95种语言而获得的高质量的英语数据。在Iglue基准和XM3600上,MBLIP产生与最先进的mod-els竞争的重新竞争,它极大地超过了强大的英语 - 仅有llava 1.5的视觉效果。我们在https://github.com/gregor-ge/mblip上发布了模型,代码和火车数据。