在计算机科学中,教科书谈到了“垃圾进,垃圾出”(GIGO)的概念;即低质量的输入数据会产生不可靠的输出或“垃圾”。当我们处理高度复杂的数据模式(例如 X 光片和计算机断层扫描)时,GIGO 就变得更加紧迫。任何深度网络的性能都直接取决于它学习的数据集的质量。可靠数据集的一个例子是像 Cancer Imaging Archive [ 1 ] 这样拥有大量专家工作成果的知名存储库 [ 2 ]。遵守 DICOM 标准并确保图像正确链接到支持元数据对于构建精心策划的数据集至关重要。最近几周,我们观察到一种趋势,即匆忙使用不当数据来训练 COVID-19 深度网络。AI 爱好者似乎不耐烦地创建自己的医学图像数据集,而没有寻求临床合作者来指导他们。这些数据集更像是通过手动收集可公开访问的图像(例如在线期刊和非同行评审档案中的预印本)而形成的“玩具集”。大多数时候,没有临床或医学能力的人工智能研究人员会创建自己的实验性“玩具”数据集,以进行初步调查并建立算法挑战框架。需要明确的是,从医学成像角度来看,“玩具数据集”并不是因为非常小且不符合 DICOM 标准而成为玩具,更重要的是因为它是由工程师和计算机科学家创建的,而不是由医生和医学/临床专家创建的。此类 COVID-19 图像数据集已在互联网上出现,
主要关键词