机器学习与面板数据的结合:从业者需要了解什么

如何避免由于隐藏的数据泄漏而高估机器学习模型的性能、有用性和现实世界的适用性机器学习遇见面板数据:从业者需要知道什么首先出现在走向数据科学上。

来源:走向数据科学
作者:Augusto Cerqua、Marco Letta、Gabriele Pinto
作者

学习 (ML) 在经济学、社会科学和商业决策中发挥着核心作用。在公共部门,机器学习越来越多地用于所谓的预测政策问题:政策制定者旨在识别最有可能出现负面结果的单位并主动干预的环境;例如,针对公共补贴、预测当地经济衰退或预测移民模式。在私营部门,当公司试图预测客户流失或优化信用风险评估时,就会出现类似的预测任务。在这两个领域,更好的预测可以转化为更有效的资源分配和更有效的干预措施。

为了实现这些目标,机器学习算法越来越多地应用于面板数据,其特点是在多个时间段内重复观察相同的单位。然而,机器学习模型最初并不是为使用面板数据而设计的,面板数据具有独特的横截面和纵向尺寸。当机器学习应用于面板数据时,很可能会出现一个微妙但严重的问题:数据泄漏。当预测时不可用的信息意外进入模型训练过程时,就会发生这种情况,从而夸大预测性能。在我们最近发表在《牛津经济与统计公报》上的论文《On the Mis(Use) of Machine Learning With Panel Data》(Cerqua、Letta 和 Pinto,2025)中,我们首次使用面板数据对机器学习中的数据泄漏进行了系统评估,为从业者提出了明确的指导方针,并通过公开的美国县数据进行实证应用来说明其后果。

论机器学习与面板数据的错误(使用) 牛津经济与统计公报

泄漏问题

  • 横截面泄漏:相同或非常相似的单元出现在训练和测试集中,这意味着模型已经“看到”了数据的大部分横截面维度。
  • 为什么它很重要