合成数据与人工智能医疗设备的创新、评估和监管 Puja Myles,公共卫生硕士、博士;Johan Ordish,文学硕士;Richard Branson,理学硕士、文学硕士 摘要 合成数据是模仿真实数据的属性和关系的人工数据。它有望促进数据访问、验证和基准测试,解决缺失数据和欠采样、样本增强以及在临床试验中创建对照组的问题。英国药品和保健产品管理局 (MHRA) 正在利用其目前对高保真合成数据开发的研究,制定其对经过合成数据训练的人工智能医疗设备的监管立场,并将合成数据作为人工智能医疗设备验证和基准测试的工具。 关键词 人工智能作为医疗设备 (AIaMD)、数据隐私、健康数据、合成数据、验证、监管 简介 人工智能 (AI) 在医疗和社会保健领域的应用预计将会兴起,这意味着人工智能作为医疗设备 (AIaMD) 将成为医疗设备中越来越突出的子类别。 1 因此,医疗器械法规是否适合人工智能变得越来越重要,制造商是否了解并遵守其义务也变得越来越重要,其中最主要的是证明其 AIaMD 具有良好的效益风险比。2 强大的数据集是展示 AIaMD 性能的核心,通常是此类设备开发的主要障碍。3 医疗器械监管机构有责任确保制造商拥有履行这些义务所需的工具,并提供更广泛的支持以鼓励此类创新设备的开发。合成数据集的开发很可能成为这样一种辅助工具。本文概述了 MHRA 在研究和开发合成数据方面的努力,并考虑在更广泛的改革背景下使用合成数据,以确保医疗器械法规适用于人工智能。合成数据概况 近年来,人们对合成数据的兴趣日益浓厚,原因有很多,包括在数据治理法规更加严格的世界中可能易于获取、保护患者隐私、在机器学习算法背景下的基准测试和验证能力,以及解决真实数据局限性的能力,如数据缺失、欠采样和样本量小。4 更重要的是,尽管合成数据的潜在应用已经讨论了多年,但直到最近,合成数据生成方法的进步才能够产生高质量的合成数据。5 定义合成数据 从概念上讲,合成数据是模仿真实数据的属性和关系的人工数据。合成数据的质量取决于生成合成数据的方法。合成数据的质量通常用其“效用”或“保真度”来描述。“能够捕捉各种数据字段之间复杂的相互关系以及真实数据的统计特性的合成数据集可称为“高实用性”或“高保真度”合成数据集。在患者医疗保健数据方面,高保真度合成数据集将能够捕捉复杂的临床关系,并且在临床上与真实患者数据难以区分。高效用合成数据的生成往往需要大量资源,并且根据需要合成数据的应用,使用低效用或中等效用合成数据可能是可以接受的。
目前最先进的物体识别算法——深度卷积神经网络 (DCNN),灵感来自哺乳动物视觉系统的架构,在许多任务上能够达到人类水平的表现。在对 DCNN 进行物体识别任务训练时,已证明 DCNN 能够开发出与哺乳动物视觉系统中观察到的隐藏表征相似的隐藏表征 (Razavi 和 Kriegeskorte,2014 年;Yamins 和 Dicarlo,2016 年;Gu 和 van Gerven,2015 年;Mcclure 和 Kriegeskorte,2016 年)。此外,在物体识别任务上训练的 DCNN 是目前我们拥有的哺乳动物视觉系统的最佳模型之一。这让我们假设,教导 DCNN 实现更像大脑的表征可以提高其性能。为了测试这一点,我们在一个复合任务上训练了 DCNN,其中网络被训练为:(a) 对物体图像进行分类;同时 (b) 具有与猴子视觉皮层神经记录中观察到的中间表征相似的中间表征。与纯粹为对象分类而训练的 DCNN 相比,在复合任务上训练的 DCNN 具有更好的对象识别性能,并且对标签损坏的鲁棒性更强。有趣的是,我们发现这个过程不需要神经数据,但具有与神经数据相同统计特性的随机数据也会提高性能。虽然我们在复合任务上训练时观察到的性能提升与“纯”对象识别任务相比并不大,但它们非常稳健。值得注意的是,我们在研究的所有网络变体中都观察到了这些性能提升,包括:较小(CORNet-Z)与较大(VGG-16)架构;优化器的变化(Adam 与梯度下降);激活函数的变化(ReLU 与 ELU);以及网络初始化的变化。我们的结果证明了一种训练对象识别网络的新方法的潜在效用,使用大脑(或至少是其激活模式的统计特性)作为训练 DCNN 的教师信号的策略。© 2020 Elsevier Ltd. 保留所有权利。