成像长期以来一直是癌症研究和临床护理的基石,为了解组织形态和空间细胞间动力学提供了依据。近年来的技术进步使显微镜的规模比以往任何时候都更大,导致常用数据集的大小呈指数级增长 - 这一趋势在未来几年可能会继续加速。生物医学成像中的“大数据”可以沿着两个正交轴概念化:样本大小和数据维数(图 1)。第一个轴(n)可以通过简单地计算数据集中的病例数来测量。这一维度的扩展主要受到高通量成像技术的进步的推动。一个显著的例子可以在病理学领域看到,该领域越来越多地采用数字化工作流程,导致幻灯片扫描被例行纳入病理学家的工作流程,从而创建大型全幻灯片图像 (WSI) 数据库。早期采用数字化病理学工作流程的人每年扫描超过 100 万张幻灯片 [1] - 比 TCGA 等当前基准数据集大几个数量级,并且表明随着工作流程日益数字化,大型学术三级医院可以预期定期生成的潜在数据量。与此同时,数据在每张图像中捕获的信息量也在增长,我们将其称为数据维数 (d)。这主要是由空间组学(即蛋白质或 RNA 等分子标记的空间量化)和高度多路复用成像(在 [2] 中进行了评论)的新兴技术推动的。与具有三个通道(红色、绿色和蓝色)的明场图像相比,这些高维图像中的每一个可能具有多达 10,000 个通道,每个通道代表一个特定目标。体积成像通过添加深度维度进一步增加了每个样本的信息内容,从而能够捕获三维组织形态。因此,即使病例数保持不变,数据集大小也会增长。图像数据的快速增长对癌症研究具有重要意义,尤其是与基因组学和结果等伴随元数据结合使用时。大样本量为发现和量化与临床和生物学相关特征相关的组织学模式提供了足够的能力,最近的研究表明这些方法有潜力改善临床和诊断工作流程 [3-5] 并发现基于图像的生物标志物以重现分子特征 [6, 7]。同样,高维成像数据中捕获的丰富背景信息为以前所未有的分辨率探究肿瘤微环境奠定了基础 [8, 9]。随着数字工作流程越来越多地部署在各种临床环境中,明场显微镜的普遍性使其成为基于图像的生物标志物开发的特别有吸引力的候选者。然而,虽然成像数据集规模的增加带来了新的研究机会和途径,但也带来了重大挑战。也就是说,这些进步只有通过利用计算图像分析方法,特别是深度学习才有可能实现。深度学习模型灵活而强大,在识别方面已显示出显著的成功