抽象视觉模型对于需要了解视觉和语言元素的任务变得越来越强大,从而弥合了这些方式之间的差距。在多模式临床AI的背景下,对具有特定领域知识的模型的需求越来越大,因为现有模型通常缺乏医疗应用所需的专业知识。在本文中,我们以脑部异常为例,以演示如何自动收集医学图像文本对齐数据,以从PubMed等公共资源进行预处理。特别是我们提出了一条管道,该管道通过最初从病例报告和已发表的期刊收集大脑图像-TEXT数据集来简化预训练过程,然后随后构建针对特定医疗任务量身定制的高性能视觉语言模型。我们还调查了将亚法图映射到医疗领域中的亚captions的独特挑战。我们通过定量和定性的内在评估评估了所得模型。可以在此处找到生成的数据集和我们的代码https://github.com/masoud-monajati/medvl_pretrataining_pipeline