详细内容或原文请订阅后点击阅览
解释:L1正则化如何执行特征选择?
了解L1(Lasso)正则化执行的自动特征选择该帖子解释了:L1正则化如何执行特征选择?首先出现在数据科学上。
来源:走向数据科学是从给定的一组功能中选择最佳特征子集的过程;最佳功能子集是在给定任务上最大化模型的性能的功能。
使用过滤器或包装器方法执行时,功能选择可以是手动或明确的过程。在这些方法中,基于固定度量的值添加或迭代的功能,这量化了该功能在制作预测中的相关性。这些措施可能是信息增益,方差或卡方统计量,该算法将决定接受/拒绝该功能考虑该措施的固定阈值。请注意,这些方法不是模型训练阶段的一部分,并且是在此之前进行的。
过滤器或包装器方法嵌入式方法隐含地执行特征选择,而无需使用任何预定义的选择标准并从训练数据本身中得出。这个内在特征选择过程是模型训练阶段的一部分。该模型学会选择功能并同时做出相关预测。在后面的部分中,我们将描述正则化在执行此内在特征选择中的作用。
嵌入方法正则化和模型复杂性
正则化是惩罚模型复杂性以避免过度拟合并实现对任务的概括的过程。
在这里,模型的复杂性类似于其适应训练数据中模式的能力。假设在“ X”中具有简单的多项式模型,随着我们增加多项式的“ D”度,该模型具有更大的灵活性,可以在观察到的数据中捕获模式。
x d过度拟合和拟合不足
d = 2 灵活性 复杂性 拟合不足 d = 6 过拟合如何确定最佳模型复杂性?
l1正则化作为功能选择器
继续使用我们的多项式模型,我们将其表示为一个函数f,输入x,参数θ和度d,
θ