在复杂而多维的医学领域,多模态数据普遍存在,对于做出明智的临床决策至关重要。多模态数据涵盖广泛的数据类型,包括医学图像(例如 MRI 和 CT 扫描)、时间序列数据(例如可穿戴设备和电子健康记录的传感器数据)、音频记录(例如心音和呼吸音以及患者访谈)、文本(例如临床笔记和研究文章)、视频(例如外科手术)和组学数据(例如基因组学和蛋白质组学)。虽然大型语言模型 (LLM) 的进步为医学领域的知识检索和处理提供了新的应用,但大多数 LLM 仍然仅限于处理单模态数据(通常是基于文本的内容),并且经常忽视整合临床实践中遇到的各种数据模态的重要性。本文旨在从详细、实用和面向解决方案的角度介绍多模态 LLM (M-LLM) 在医学领域的应用。我们的调查涵盖了 M-LLM 的基本原理、当前和潜在的应用、技术和道德挑战以及未来的研究方向。通过连接这些元素,我们旨在提供一个综合框架,将 M-LLM 的各个方面联系起来,为它们在医疗保健领域的未来提供统一的愿景。这种方法旨在指导 M-LLM 在医疗保健领域的未来研究和实际实施,将其定位为向综合、多模式数据驱动的医疗实践转变的范式转变。我们预计这项工作将引发进一步的讨论,并激发下一代医学 M-LLM 系统中创新方法的发展。
一台厌倦世事、重获生机的轧棉机马达在玻璃柜中旋转,其预期的工业轰鸣声被外壳底部的消声泡沫吸收。这台机器是凯文·比斯利 (Kevin Beasley) 的作品《一片风景:轧棉机马达,2012-18 年》(图 1)的核心,该作品于 2019 年春季在纽约惠特尼美国艺术博物馆展出。在柜子里,比斯利放置了十几个麦克风,将这台庞大机器的噪音传递到隔壁的房间。在那里,感官体验被颠倒了:墙壁是黑暗的,衬有吸音垫,表演时会以各种颜色亮起;电线通向后墙摆放的合成器;高保真扬声器将马达放大的现场直播声音填满整个房间;观众坐在长凳或地板上,沉浸在机械的音景中。声音和视觉分离后,马达的缺席可以理解为人们同意将其噪音当作音乐来享受。这样,A 的观点激发了人们对黑人音乐表达的批判性反思,这种音乐表达是以黑人的社会边缘化为条件的。1 然而,比斯利拒绝将马达的声音挪用来表达音乐的崇高;他几乎没有调整其工业轰鸣声。相反,马达的现成时间和空间——它从 1940 年到 1973 年为阿拉巴马州的轧棉机提供动力——被允许进入博物馆的白色墙壁。马达不仅仅是一种乐器,它更是一种存储设备,其非人的节奏让人回想起种植园的积累历史,其错位表明它代表了种植园的第一批技术:黑奴在监工鞭子的威胁下像机器一样工作。A 的观点呼吁人们关注种族奴隶制和工业化之间的交易,这种交易在 19 世纪帮助种族资本主义实现技术转型的科学和工程努力中被广泛否认。在本文中,我旨在通过 Beasley 的作品提供的种植园的时间位移来重新连接这段历史。这种方法试图解决 Ian Baucom 所说的跨大西洋奴隶制时代“在当下的货舱中积累”的问题。2 通过以这种方式构建种植园景观的时间性,我们可以看到工业时代如何以不间断的链条继承了奴隶制对人类的技术使用。蒸汽机、电动机和黑奴通过它们的使用参数联系在一起——作为设备、作为种植园主改善土地的假肢、作为将能量转化为机械运动、将运动转化为利润的动力源。身体和机器通过它们提供的力量进行工作和为种植园运营提供动力而联系在一起,这种力量在 19 世纪的物理学中被量化为一种抽象且可转换的能量概念。正是通过这种能量的概念化,我追踪了