如何使用交叉验证来减少过度拟合

为什么重要:过度拟合是许多机器学习模型在不知情的情况下成为受害者的问题。交叉验证是用于减少过度拟合的最流行的技术。

来源:人工智能+

简介

简介

过度拟合是机器学习模型的一个主要问题。许多新数据科学家可能会成为它的受害者。那么,什么是过度拟合?好吧,我们可以从一个例子开始。假设我们想根据类似产品的先前销售数据来预测特定产品是否会在夏季销售。因此,我们首先从 10000 个销售数据及其结果的数据集训练模型。当在原始数据集上使用此模型时,它可以以 99% 的准确率预测结果。这让它看起来像是一个好模型。然而,在一个新的看不见的销售数据集上运行它之后,该模型现在只有 50% 的准确率。那么,发生了什么?好吧,这意味着该模型不能很好地从训练数据推广到看不见的数据。这个问题被称为过度拟合,对于新数据科学家来说,克服它很难。

信号与噪声

信号与噪声

在提出预测模型时,“信号”将是您试图从数据中学习的实际潜在模式。“噪声”是来自数据集的随机性或其他不相关数据。假设您决定为儿童的身高与年龄建模。如果样本量足够大,您很容易找到两者之间的关系。这就是信号。

另一方面,如果我们尝试创建一个样本量仅为一所当地学校的模型,则关系可能不那么明显。这是因为异常值,例如父母高的孩子,以及其他随机性。噪声会干扰信号。运行良好的机器学习算法必须将信号与噪声分开。如果算法有太多输入特征,或者没有正确正则化,那么它最终可能会记住噪声而不是找到信号。这会导致模型根据噪声而不是信号进行预测,这使得它在训练数据上表现非常好,但在新的和未见过的数据上会失败。这使其成为过度拟合模型。

YouTube th