2020 年,谷歌健康发布了一款极为准确的人工智能软件,用于在患者眼部图片中识别糖尿病视网膜病变。该分类器的准确率超过 90%,并在不到 10 分钟的时间内做出诊断。不幸的是,当部署到医院使用时,基于人工智能的分类器的性能与实验室环境相比有所下降。此外,该系统经常无法提供结果:在使用高分辨率图片进行训练时,由于质量低下,系统会丢弃超过五分之一的图像。这导致诊断延迟长达数月,并引发患者投诉 [1]。这起事故表明,仅评估实验室的性能可能不足以确保基于人工智能的系统的质量,因为机器学习 (ML) 模型的成功不仅仅取决于其准确性。应特别注意用户的需求和行动背景,以及将 ML 模型与非 ML 软件集成为大型基于人工智能系统的一部分,