详细内容或原文请订阅后点击阅览
在标签嘈杂时如何测量实际模型精度
“真实”准确性和误差背后的数学相关性相关性帖子在首先出现在数据科学上时,帖子如何衡量实际模型的准确性。
来源:走向数据科学真理从来都不是完美的。从科学测量到用于训练深度学习模型的人类注释,地面真理总是存在一些错误。 ImageNet,可以说是最曲线曲调的图像数据集在人类注释中的错误0.3%。然后,我们如何使用此类错误标签评估预测模型?
人类注释中的0.3%错误 在本文中,我们探讨了如何考虑测试数据标签中的错误并估算模型的“真实”准确性。 示例:图像分类 假设有100张图像,每张图像包含猫或狗。这些图像由人类注释者标记,这些注释者的精度为96%(Aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ)。如果我们在某些数据上训练图像分类器,并发现其在固定集(Aᵐᵒᵈᵉˡ)上具有90%的精度,则该模型的“真实”精度是什么?首先进行几个观察: 在模型“正确”的90%的预测中,一些示例可能被错误地标记了,这意味着模型和地面真相都是错误的。这种人为地夸大了测得的精度。在“不正确”预测的10%内,实际上可能是模型是正确且地面真相标签是错误的情况。该人为地使测得的精度降低。 在模型“正确”的90%的预测中,一些示例可能被错误地标记了,这意味着模型和地面真相都是错误的。该人为地夸大了测得的精度。 相反,在“不正确”预测的10%中,实际上可能是模型是正确且地面真相标签是错误的情况。该人为地使测得的精度降低。 鉴于这些并发症,真正的准确性会有多多? 真正准确性的范围 模型的真正准确性,用于模型和标签的完全相关且完全不相关的误差。作者的图。 aᵗʳᵘᵉ= 0.90 - (1–0.96)= 86% aᵗʳᵘᵉ= 0.90 +(1-0.96)= 94% 或更一般: aᵗʳᵘᵉ=aᵐᵒᵈᵉˡ±(1 - aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ) 最佳实践人类注释中的0.3%错误
在本文中,我们探讨了如何考虑测试数据标签中的错误并估算模型的“真实”准确性。
示例:图像分类
- 假设有100张图像,每张图像包含猫或狗。这些图像由人类注释者标记,这些注释者的精度为96%(Aᵍʳᵒᵘⁿᵈᵗʳᵘᵗʰ)。如果我们在某些数据上训练图像分类器,并发现其在固定集(Aᵐᵒᵈᵉˡ)上具有90%的精度,则该模型的“真实”精度是什么?首先进行几个观察:
相反,在“不正确”预测的10%中,实际上可能是模型是正确且地面真相标签是错误的情况。该人为地使测得的精度降低。
鉴于这些并发症,真正的准确性会有多多?
模型的真正准确性,用于模型和标签的完全相关且完全不相关的误差。作者的图。
aᵗʳᵘᵉ= 0.90 - (1–0.96)= 86%
aᵗʳᵘᵉ= 0.90 +(1-0.96)= 94%
或更一般: