详细内容或原文请订阅后点击阅览
过度拟合与欠拟合:理解偏差-方差权衡
最好的模型处于最佳状态:概括良好,学习足够,但不过多这篇文章《过拟合与欠拟合:理解偏差-方差权衡》一文首先出现在《走向数据科学》上。
来源:走向数据科学模型有点像烹饪:调料太少,菜就乏味,太多,又太难吃了。目标?这种完美的平衡——足够的复杂性足以捕捉数据的味道,但又不会太复杂以至于令人难以承受。
在这篇文章中,我们将深入探讨模型开发中两个最常见的陷阱:过度拟合和欠拟合。无论您是训练第一个模型还是调整第一个模型,控制这些概念是构建在现实世界中实际运行的模型的关键。
过度拟合 欠拟合过度拟合
什么是过度拟合?
过度拟合是数据科学模型的一个常见问题。当模型从训练数据中学习得很好时,就会发生这种情况,这意味着它从特定于训练数据和噪声的模式中学习。因此,它无法根据看不见的数据进行良好的预测。
为什么过度拟合是一个问题?
- 性能差:模型不能很好地泛化。它在训练期间检测到的模式不适用于其余数据。根据训练误差,您会得到模型运行良好的印象,而实际上测试或现实世界的误差并不那么乐观。高方差的预测:模型性能不稳定,预测不可靠。对数据的微小调整会导致预测出现较大差异。训练复杂且昂贵的模型:在生产中训练和构建复杂模型是一项昂贵且需要大量资源的工作。如果一个更简单的模型表现同样好,那么使用它会更有效。 失去商业信任的风险:在尝试新模型时过于乐观的数据科学家可能会向业务利益相关者过度承诺结果。如果仅在模型呈现后才发现过度拟合,则可能会严重损害可信度,并使人们难以重新获得对模型可靠性的信任。
