详细内容或原文请订阅后点击阅览
您实际上应该使用哪个正则化器? 134,400 次模拟的经验教训
Ridge、Lasso 和 ElasticNet 的从业者决策框架基于您在拟合模型之前可以计算的三个量您实际上应该使用哪个正则化器? 134,400 次模拟的经验教训首先出现在《迈向数据科学》上。
来源:走向数据科学作者:Ahsaas Bajaj 和 Benjamin S Knight
?我们基于实际生产 ML 模型运行了 134,400 次模拟来找出答案。答案取决于您要优化的内容,以及您在拟合模型之前可以计算的单个诊断。
如果您曾经在 scikit-learn 中训练过线性模型,您可能会遇到过这个问题:RidgeCV、LassoCV 还是 ElasticNetCV?也许您默认使用教程推荐的任何内容。也许一位同事有强烈的意见。也许您尝试了所有三个并选择了给出最佳交叉验证分数的那个。
我们希望用经验决策取代直觉。
我们在 7 维参数空间的 960 个配置、不同的样本大小、特征、多重共线性、信噪比、系数稀疏性和另外两个参数中运行了 134,400 次模拟。我们针对三个目标对四种正则化框架(Ridge、Lasso、ElasticNet 和 Post-Lasso OLS)进行了基准测试:
我们的模拟范围不是任意的。它们基于 Instacart 的八个实际生产机器学习模型,涵盖需求预测、转化预测和库存智能。我们测试的制度反映了 MLE 在实践中实际遇到的情况。
这篇文章将我们研究中的实用指导提炼成一个决策框架,您可以在下一个项目中使用。如果您是选择正则化器的数据科学家或 MLE,那么这适合您。
头条新闻
在我们讨论细节之前:
