详细内容或原文请订阅后点击阅览
帮助您的模型学习真实信号
受库克的distancethe帖子启发的算法 - 敏锐的方法可帮助您的模型了解最初朝着数据科学迈出的真实信号。
来源:走向数据科学使用收入和信用记录等功能的贷款违约风险。一些收入相对较低的借款人似乎可以偿还大笔贷款,这可能会误导该模型。实际上,他们以美元而不是您的本地货币提交了收入,但这在数据输入期间被遗漏了,这使得它们看起来比实际的信誉较少。
,或者您正在建立一个模型来预测患者的康复时间。大多数患者遵循预期的恢复轨迹,但是有些患者经历了未记录的非常罕见的并发症。就症状,治疗和结局之间的关系而言,这些情况远非其余。它们不一定是“错误的”,但它们具有破坏性,导致该模型概括为大多数未来患者。
破坏性在两种情况下,问题不仅是噪音或经典异常。问题更微妙:
一些观察结果不成比例地破坏了模型学习主要信号的能力。
这些数据点可能:
- 对学习参数的影响不成比例,来自异常或未建模的上下文(例如,罕见并发症或数据输入问题),最重要的是,降低了模型的概括能力。
模型的可信度和预测精度可能会因这些数据点对其参数或预测产生不当影响的这些数据点可能会严重损害。理解并有效地管理这些有影响力的观察不仅是统计形式,而且是建筑模型的基石,这些模型是稳健而可靠的。
🎯我在本文中寻求实现的目标
有效识别和管理这些破坏性数据点 算法 - agnostic x y 任何 全部 n