您的培训数据代表吗?在Python中与PSI检查的指南

使用人口稳定指数(PSI)和Cramér的V比较两个数据集之间的变量分布。您的培训数据代表是您的帖子吗?在Python中与PSI进行检查的指南首先涉及数据科学。

来源:走向数据科学
为了充分利用本教程,您应该对如何比较两个分布有深入的了解。如果您不这样做,我建议您通过 @Matteo-Courthoud。我们自动化分析并使用Python将结果导出到Excel文件中。如果您已经知道Python的基础知识以及如何将其写入Excel,那将使事情变得更加容易。我要感谢所有花时间阅读和参与我的文章的人。您的支持和反馈意义重大。

为了充分利用本教程,您应该对如何比较两个分布有深入的了解。如果您不这样做,我建议您查看 @Matteo-Courthoud的这篇出色的文章。

@matteo-courthoud

我们使用Python自动化了分析并将结果导出到Excel文件。如果您已经知道Python的基础知识以及如何将其写入Excel,那将使事情变得更加容易。

我要感谢所有花时间阅读并参与我的文章的人。您的支持和反馈意义重大。

,无论是学术还是专业,两个样本之间的数据代表性问题经常出现。

通过代表性,我们的意思是两个样本相互类似或共享相同特征的程度。这个概念是必不可少的,因为它直接决定了统计结论的准确性或预测模型的性能。

在模型生命周期的每个阶段,数据代表性问题采用特定表格:

  • 在施工阶段:这是一切开始的地方。您收集数据,将其清理,将其分成培训,测试和超时样本,估算参数,并仔细记录每个决定。您确保测试和超时样本代表培训数据。
  • 施工阶段 申请阶段 监视阶段或进行回测

    代表性不是一次性的约束,而是该模型在整个开发过程中伴随的问题。

    合并 t 0