您会发现泄漏吗?数据科学挑战

当模型飞得太高时:通过数据泄漏的危险旅程,您会发现泄漏吗?数据科学挑战首先出现在数据科学方面。

来源:走向数据科学

另一种说明

您可能已经听说过数据泄漏,并且您可能会很好地知道两种口味:目标变量和火车测试拆分。但是,您会在我的故障逻辑或我乐观的代码中的监督中发现漏洞吗?让我们找出答案。

目标变量 火车测试拆分

我看过许多有关数据泄漏的文章,我认为它们都是非常有见地的。但是,我确实注意到他们倾向于专注于理论方面。而且我发现他们在某种程度上缺乏示例,这些示例在代码或确切决策的行为中零,导致过度乐观的模型。

我在本文中的目标不是理论上的目标。这是为了真正将您的数据科学技能进行测试。要查看您是否可以发现所有决定,我会在现实世界中示例中导致数据泄漏。

末端的解决方案

可选评论

可选

1。目标(标签)泄漏

功能包含有关您要预测的信息时。

当功能包含有关您要预测的信息时
    Direct Leakage: Features computed directly from the target → Example: Using “days overdue” to predict loan default → Fix: Remove feature.Indirect Leakage: Features that serve as proxies for the target → Example: Using “insurance payout amount” to predict hospital readmission → Fix: Remove feature.Post-Event Aggregates: Using data from after the prediction point → Example: Including “total calls in first 30 days” for a 7-day churn model → Fix计算苍蝇的骨料
  • 直接泄漏:直接从目标计算的功能→示例:使用“ Days Everdue”来预测贷款默认→修复:删除功能。
  • 直接泄漏: 示例: 修复
  • 间接泄漏:作为目标代理的功能→示例:使用“保险支付金额”来预测医院再入院→修复:删除功能。
  • 间接泄漏:
  • 事后聚集体:使用预测点之后的数据→示例:包括7天流失模型的“最初30天的总呼叫”→FIX在Fly上计算汇总
  • 修复: 结果