详细内容或原文请订阅后点击阅览
为什么MissForest在预测任务中失败:您需要牢记的关键限制
为什么不能将原始的Missforest算法直接用于预测建模,以及MissForestPredict如何解决这一问题,为什么Missforest在预测任务中失败了:您需要牢记的关键限制首先出现在数据科学方面。
来源:走向数据科学本文的解释是,在预测设置中,必须始终根据训练集以及保存的结果参数或模型进行估算。然后,应将这些应用于测试,超级或应用程序数据,以避免数据泄漏并确保对概括性能进行公正的评估。我要感谢所有花时间阅读并参与我的文章的人。非常感谢您的支持和反馈。
本文的解释是,在预测设置中,必须始终根据训练集以及保存的结果参数或模型进行估算。然后,应将这些应用于测试,超级或应用程序数据,以避免数据泄漏并确保对概括性能的无偏评估。
培训集 生成的参数或保存的模型我要感谢所有花时间阅读并参与我的文章的人。非常感谢您的支持和反馈。
实际上,大多数现实世界数据集都包含缺失值,这使丢失的数据成为统计建模中最常见的挑战之一。如果无法正确处理,它可能会导致系数估计,降低统计功率并最终得出不正确的结论(Van Buuren,2018年)。在预测建模中,通过执行完整的病例分析或排除具有缺失值的预测变量来忽略丢失的数据可以限制模型的适用性,并导致偏见或次优性能。
三种缺失数据机构
MCAR Mar mnar经典方法及其处理丢失数据的限制
R
Missforest
在预测设置中对Missforest的关键限制
现有解决方案及其风险
在寻找可以在预测建模设置中允许一致归纳的替代解决方案时,我们问自己一个简单但至关重要的问题:
交叉验证 数据泄漏 不稳定的弹药 i