使用 Python 进行信用评分的探索性数据分析

通过对借款人和贷款特征的统计分析来了解违约风险。用 Python 进行信用评分的探索性数据分析一文首先出现在 Towards Data Science 上。

来源:走向数据科学

项目,通常很容易跳到建模。然而第一步也是最重要的一步是理解数据。

在我们之前的文章中,我们介绍了如何构建用于构建信用评分模型的数据库。我们还强调提出正确问题的重要性:

  • 客户是谁?
  • 他们发放什么类型的贷款?
  • 哪些特征可以解释违约风险?
  • 在本文中,我们使用 Kaggle 上提供的开源数据集(信用评分数据集)来说明这一基本步骤。该数据集包含 32,581 个观察值和 12 个变量,描述银行向个人借款人发放的贷款。

    这些贷款满足一系列融资需求——医疗、个人、教育和专业——以及债务合并业务。贷款金额从 500 美元到 35,000 美元不等。

    变量捕获两个维度:

  • 合同特征(贷款金额、利率、融资目的、信用等级以及自贷款发放以来经过的时间),
  • 借款人特征(年龄、收入、专业经验年限和住房状况)。
  • 模型的目标变量是default,如果客户违约则取值为1,否则取值为0。

    如今,许多工具和越来越多的人工智能代理都能够自动生成数据集的统计描述。尽管如此,手动执行此分析对于初学者来说仍然是一个很好的练习。它可以加深对数据结构的理解,有助于突出潜在的异常情况,并支持识别可能预测风险的变量。

    在本文中,我们采用简单的指导方法来统计描述数据集中的每个变量。

  • 对于分类变量,我们分析每个类别的观察数量和默认率。
  • 对于连续变量,我们将它们离散化为由四分位数定义的四个区间:
  • ]分钟; Q1],]Q1; Q2],]Q2; Q3]和]Q3;最大]
  • 建模数据集的描述性统计

    [1]

    [2]