在回归分析中,具有非零系数的协变量被认为是真实信号,而系数为零的协变量被认为是错误信号。在人口模型中,这种区别是明确的,类似于“黑白”场景。然而,在有限样本中,微小的非零系数的存在引入了“灰色”区域,模糊了真和假信号之间的界线。1这个灰色区域代表弱信号,可以对结果变量产生可忽略的影响。对弱信号的调查对经济和财务决策具有切实的影响。通常,这些弱信号的集体影响推动了这些领域的结果。支持这一点,图1提供了一种经验的观点,展示了R 2值,从经济学和金融杂志汇编中收集了2022年发表的文章。这些R 2值的25%分位数的经济学为9.7%,金融为5.8%,这表明这些学科的模型经常依赖于具有适度解释力的协变量。此外,图1仅着眼于已发表的论文,这些论文可能偏向于由于选择偏差而引起的R 2值的研究。这表明弱信号的存在可能比这里指出的数据更为广泛。将弱信号纳入回归模型中的决定充满了过度拟合的危险,这会破坏预测性能。当与估计这些弱信号的系数相关的错误大于减少其包容性偏见的好处时,就会出现此问题。包括这些变量,或者不从而取决于偏见和差异之间的权衡。加剧了这一挑战是在数据丰富的环境中经常遇到的高维协变量的越来越多的流行率,这是由于样本量相对于协方差的维度而言,这种情况可能会进一步加剧预测错误。机器学习方法以强调可变选择和降低尺寸而闻名,已被证明有效地减轻了过度拟合和检测错误信号的真实信号,尤其是当真实信号很强时。这些方法采用正则化技术,例如惩罚模型参数的ℓ1或ℓ2规范,以实现这一目标。出现一个关键的问题:机器可以学习弱信号,换句话说,它们是否可以超过天真的零估计器?零估计器旨在忽略所有协变量,在弱信号的背景下用作被动基线。如果估算器设法超过了这一基线,则意味着它有效地学习了有价值的信号。相反,未能