您实际上应该使用哪个正则化器? 134,400 次模拟的经验教训

Ridge、Lasso 和 ElasticNet 的从业者决策框架基于您在拟合模型之前可以计算的三个量您实际上应该使用哪个正则化器? 134,400 次模拟的经验教训首先出现在《迈向数据科学》上。

来源:走向数据科学

作者:Ahsaas Bajaj 和 Benjamin S Knight

?我们基于实际生产 ML 模型运行了 134,400 次模拟来找出答案。答案取决于您要优化的内容,以及您在拟合模型之前可以计算的单个诊断。

如果您曾经在 scikit-learn 中训练过线性模型,您可能会遇到过这个问题:RidgeCV、LassoCV 还是 ElasticNetCV?也许您默认使用教程推荐的任何内容。也许一位同事有强烈的意见。也许您尝试了所有三个并选择了给出最佳交叉验证分数的那个。

我们希望用经验决策取代直觉。

我们在 7 维参数空间的 960 个配置、不同的样本大小、特征、多重共线性、信噪比、系数稀疏性和另外两个参数中运行了 134,400 次模拟。我们针对三个目标对四种正则化框架(Ridge、Lasso、ElasticNet 和 Post-Lasso OLS)进行了基准测试:

  • 预测准确性(测试 RMSE)
  • 变量选择(恢复真实特征集的F1分数)
  • 系数估计(L2 误差与真实系数)
  • 我们的模拟范围不是任意的。它们基于 Instacart 的八个实际生产机器学习模型,涵盖需求预测、转化预测和库存智能。我们测试的制度反映了 MLE 在实践中实际遇到的情况。

    这篇文章将我们研究中的实用指导提炼成一个决策框架,您可以在下一个项目中使用。如果您是选择正则化器的数据科学家或 MLE,那么这适合您。

    头条新闻

    在我们讨论细节之前:

  • 对于预测来说,这几乎不重要。Ridge、Lasso 和 ElasticNet 的 RMSE 中值最多相差 0.3%。对于它们之间的 RMSE 差异,没有任何超参数能够实现哪怕很小的效应大小。这仅适用于足够的训练数据(每个特征 > 78 个观察值)。
  • 在较大的样本与特征比 (n/p ≥ 78) 下,这些方法可以互换。使用山脊;这是最快的。
  • 我们测试了什么以及为什么测试

    注意事项