使用 Python 构建稳健的信用评分模型

衡量信用评分中特征选择变量之间关系的实用指南。用 Python 构建稳健的信用评分模型一文首先出现在 Towards Data Science 上。

来源:走向数据科学

您对我上一篇文章的反馈和兴趣。由于一些读者询问如何复制分析,我决定在 GitHub 上分享本文和上一篇文章的完整代码。这将使您能够轻松地重现结果、更好地理解方法并更详细地探索项目。

在这篇文章中,我们表明分析信用评分中变量之间的关系有两个主要目的:

  • 评估解释变量区分违约的能力(参见第 1.1 节)
  • 通过研究解释变量之间的关系来降维(参见第 1.2 节)
  • 在第 1.3 节中,我们将这些方法应用于上一篇文章中介绍的数据集。
  • 总之,我们总结了要点,并强调了对面试(无论是实习还是全职职位)有用的要点。
  • 随着我们建模技能的成长和提高,我们经常回顾我们早期的尝试、我们构建的第一个模型以及我们在此过程中犯的错误。

    我记得使用 Kaggle 资源构建了一个评分模型,但没有真正理解如何分析变量之间的关系。无论它涉及两个连续变量,一个连续变量和一个分类变量,还是两个分类变量,我都缺乏正确研究它们所需的图形直觉和统计工具。

    直到第三年,在一个信用评分项目中,我才完全理解了它们的重要性。正是这种经历,我强烈鼓励任何人在构建第一个评分模型时认真分析变量之间的关系。

    为什么研究变量之间的关系很重要

    第一个目标是确定最能解释所研究现象的变量,例如预测违约。

    然而,相关性并不是因果关系。任何见解都必须得到以下支持:

  • 学术研究
  • 领域专业知识
  • 数据可视化
  • 和专家判断
  • 两个连续变量
  • [1]

    [2]