详细内容或原文请订阅后点击阅览
使用 Python 构建稳健的信用评分模型
衡量信用评分中特征选择变量之间关系的实用指南。用 Python 构建稳健的信用评分模型一文首先出现在 Towards Data Science 上。
来源:走向数据科学您对我上一篇文章的反馈和兴趣。由于一些读者询问如何复制分析,我决定在 GitHub 上分享本文和上一篇文章的完整代码。这将使您能够轻松地重现结果、更好地理解方法并更详细地探索项目。
在这篇文章中,我们表明分析信用评分中变量之间的关系有两个主要目的:
随着我们建模技能的成长和提高,我们经常回顾我们早期的尝试、我们构建的第一个模型以及我们在此过程中犯的错误。
我记得使用 Kaggle 资源构建了一个评分模型,但没有真正理解如何分析变量之间的关系。无论它涉及两个连续变量,一个连续变量和一个分类变量,还是两个分类变量,我都缺乏正确研究它们所需的图形直觉和统计工具。
直到第三年,在一个信用评分项目中,我才完全理解了它们的重要性。正是这种经历,我强烈鼓励任何人在构建第一个评分模型时认真分析变量之间的关系。
为什么研究变量之间的关系很重要
第一个目标是确定最能解释所研究现象的变量,例如预测违约。
然而,相关性并不是因果关系。任何见解都必须得到以下支持:
[1]
[2]
