详细内容或原文请订阅后点击阅览
使用 Python 进行信用评分的探索性数据分析
通过对借款人和贷款特征的统计分析来了解违约风险。用 Python 进行信用评分的探索性数据分析一文首先出现在 Towards Data Science 上。
来源:走向数据科学项目,通常很容易跳到建模。然而第一步也是最重要的一步是理解数据。
在我们之前的文章中,我们介绍了如何构建用于构建信用评分模型的数据库。我们还强调提出正确问题的重要性:
在本文中,我们使用 Kaggle 上提供的开源数据集(信用评分数据集)来说明这一基本步骤。该数据集包含 32,581 个观察值和 12 个变量,描述银行向个人借款人发放的贷款。
这些贷款满足一系列融资需求——医疗、个人、教育和专业——以及债务合并业务。贷款金额从 500 美元到 35,000 美元不等。
变量捕获两个维度:
模型的目标变量是default,如果客户违约则取值为1,否则取值为0。
如今,许多工具和越来越多的人工智能代理都能够自动生成数据集的统计描述。尽管如此,手动执行此分析对于初学者来说仍然是一个很好的练习。它可以加深对数据结构的理解,有助于突出潜在的异常情况,并支持识别可能预测风险的变量。
在本文中,我们采用简单的指导方法来统计描述数据集中的每个变量。
建模数据集的描述性统计
[1]
[2]
