如何识别和修复 AI 训练数据错误

就像软件开发需要编写代码一样,开发有效的人工智能和机器学习模型也需要高质量的数据。由于算法需要不断训练才能完成任务,因此模型在生产的多个阶段都需要准确标记和注释的数据。但是,高质量的数据很难获得。有时,数据集可能 […]

来源:Shaip 博客

AI 训练数据错误有哪些类型?

标记错误、不可靠数据、不平衡数据、数据偏差

我们将研究四种最常见的训练数据错误及其避免方法。

标记错误

标记错误是训练数据中最常见的错误之一。 如果模型的测试数据中有错误标记的数据集,则最终的解决方案将无济于事。 数据科学家不会对模型的性能或质量得出准确或有意义的结论。

常见错误 测试数据

标记错误有多种形式。 我们使用一个简单的例子来进一步说明这一点。 如果数据注释者有一个简单的任务,即在图像中的每只猫周围绘制边界框,则可能会发生以下类型的标记错误。

    拟合不准确:当边界框没有尽可能靠近物体(猫)时,就会发生模型过度拟合,从而在目标物体周围留下几个空隙。缺少标签:在这种情况下,注释者可能会错过标记图像中的猫。指令误解:提供给注释者的指令不明确。注释者没有在图像中的每只猫周围放置一个边界框,而是放置一个包含所有猫的边界框。遮挡处理:注释者没有在猫的可见部分周围放置边界框,而是在部分可见的猫的预期形状周围放置边界框。
  • 拟合不准确:当边界框没有尽可能靠近物体(猫)时,就会发生模型过度拟合,从而在目标物体周围留下几个空隙。
  • 拟合不准确:模型过度拟合
  • 缺少标签:在这种情况下,注释者可能会错过标记图像中的猫。
  • 缺少标签:
  • 指令误解:提供给注释者的指令不明确。注释者没有在图像中的每只猫周围放置一个边界框,而是放置一个包含所有猫的边界框。
  • 指令误解: 遮挡处理:

    非结构化和不可靠的数据

    不平衡的数据

    现实世界