在复杂而多维的医学领域,多模态数据普遍存在,对于做出明智的临床决策至关重要。多模态数据涵盖广泛的数据类型,包括医学图像(例如 MRI 和 CT 扫描)、时间序列数据(例如可穿戴设备和电子健康记录的传感器数据)、音频记录(例如心音和呼吸音以及患者访谈)、文本(例如临床笔记和研究文章)、视频(例如外科手术)和组学数据(例如基因组学和蛋白质组学)。虽然大型语言模型 (LLM) 的进步为医学领域的知识检索和处理提供了新的应用,但大多数 LLM 仍然仅限于处理单模态数据(通常是基于文本的内容),并且经常忽视整合临床实践中遇到的各种数据模态的重要性。本文旨在从详细、实用和面向解决方案的角度介绍多模态 LLM (M-LLM) 在医学领域的应用。我们的调查涵盖了 M-LLM 的基本原理、当前和潜在的应用、技术和道德挑战以及未来的研究方向。通过连接这些元素,我们旨在提供一个综合框架,将 M-LLM 的各个方面联系起来,为它们在医疗保健领域的未来提供统一的愿景。这种方法旨在指导 M-LLM 在医疗保健领域的未来研究和实际实施,将其定位为向综合、多模式数据驱动的医疗实践转变的范式转变。我们预计这项工作将引发进一步的讨论,并激发下一代医学 M-LLM 系统中创新方法的发展。
主要关键词