合成数据与人工智能医疗设备的创新、评估和监管 Puja Myles,公共卫生硕士、博士;Johan Ordish,文学硕士;Richard Branson,理学硕士、文学硕士 摘要 合成数据是模仿真实数据的属性和关系的人工数据。它有望促进数据访问、验证和基准测试,解决缺失数据和欠采样、样本增强以及在临床试验中创建对照组的问题。英国药品和保健产品管理局 (MHRA) 正在利用其目前对高保真合成数据开发的研究,制定其对经过合成数据训练的人工智能医疗设备的监管立场,并将合成数据作为人工智能医疗设备验证和基准测试的工具。 关键词 人工智能作为医疗设备 (AIaMD)、数据隐私、健康数据、合成数据、验证、监管 简介 人工智能 (AI) 在医疗和社会保健领域的应用预计将会兴起,这意味着人工智能作为医疗设备 (AIaMD) 将成为医疗设备中越来越突出的子类别。 1 因此,医疗器械法规是否适合人工智能变得越来越重要,制造商是否了解并遵守其义务也变得越来越重要,其中最主要的是证明其 AIaMD 具有良好的效益风险比。2 强大的数据集是展示 AIaMD 性能的核心,通常是此类设备开发的主要障碍。3 医疗器械监管机构有责任确保制造商拥有履行这些义务所需的工具,并提供更广泛的支持以鼓励此类创新设备的开发。合成数据集的开发很可能成为这样一种辅助工具。本文概述了 MHRA 在研究和开发合成数据方面的努力,并考虑在更广泛的改革背景下使用合成数据,以确保医疗器械法规适用于人工智能。合成数据概况 近年来,人们对合成数据的兴趣日益浓厚,原因有很多,包括在数据治理法规更加严格的世界中可能易于获取、保护患者隐私、在机器学习算法背景下的基准测试和验证能力,以及解决真实数据局限性的能力,如数据缺失、欠采样和样本量小。4 更重要的是,尽管合成数据的潜在应用已经讨论了多年,但直到最近,合成数据生成方法的进步才能够产生高质量的合成数据。5 定义合成数据 从概念上讲,合成数据是模仿真实数据的属性和关系的人工数据。合成数据的质量取决于生成合成数据的方法。合成数据的质量通常用其“效用”或“保真度”来描述。“能够捕捉各种数据字段之间复杂的相互关系以及真实数据的统计特性的合成数据集可称为“高实用性”或“高保真度”合成数据集。在患者医疗保健数据方面,高保真度合成数据集将能够捕捉复杂的临床关系,并且在临床上与真实患者数据难以区分。高效用合成数据的生成往往需要大量资源,并且根据需要合成数据的应用,使用低效用或中等效用合成数据可能是可以接受的。
2.标记包含 PII 的电子邮件和文档的程序已更改。隐私标记“仅供官方使用 (FOUO) – 隐私敏感。任何滥用或未经授权的披露都可能导致民事和刑事处罚”将不再使用,并且包含 PII 的文档将按照以下指南进行标记。过去许多人通过创建电子邮件模板将上述 FOUO 隐私声明或类似内容添加到他们所有的电子邮件中,无论电子邮件是否包含 PII。不应该这样做。没有等效的 CUI 声明。需要明确的是,上述隐私标记和“FOUO”本身不再是有效标记,不应使用。如果文档不包含 CUI,则不应将其标记为“CUI”。如果使用 CUI 标记,您应该能够识别文档中的特定 CUI。3.所有包含 PII 的文档的一般规则是在文档顶部或“横幅”上标记“CUI”,在底部或“页脚”上标记“CUI”。此外,电子邮件主题行也应标记为“CUI”。请勿在“CUI”标记中添加其他描述性措辞。例如,请勿使用“CUI-Privacy”、“CUI-PII”或类似的修饰符。请勿返回并重新标记现有(即 CUI 之前的程序或遗留文档)。如果使用这些“旧”文档中的信息创建新文档,则根据 CUI 程序标记政策标记新文档。4.除了在文档顶部和底部用“CUI”标记外,还需要在文档第一页底部的“CUI”横幅和页脚标记内添加 CUI“指定指示块”。国防部指导指示该块位于页面的右下角。这并不总是可行的。重要的是该块存在。该块包括组织、办公室、CUI 类别、传播信息和 POC 信息。请参阅下面的 CUI 资源,了解如何创建和使用 CUI“指定指示块”。