从原始数据到风险类别

信用评分分类实用指南《从原始数据到风险类别》一文首先出现在《走向数据科学》上。

来源:走向数据科学

模型失败不是因为算法很弱,而是因为变量没有以模型可以正确理解的方式准备?

在信用风险建模中,我们通常关注模型选择、绩效指标、特征选择或验证。但在估计任何系数之前,另一个问题值得关注:每个变量应该如何进入模型?

原始变量并不总是风险的最佳表示。

连续变量可能与默认值具有非线性关系。分类变量可能包含太多模式。某些变量可能包括异常值、缺失值、不稳定分布或观察值很少的类别。如果忽略这些问题,模型可能会变得不稳定、难以解释并且在生产中可靠性较低。

这是分类变得重要的地方。

分类,也称为粗分类、分组、分类或分箱,包括将原始变量值转换为较少数量的有意义的组。在信用评分中,创建这些组不仅仅是为了方便。创建它们是为了使变量和违约风险之间的关系更清晰、更稳定并且更易于在模型中使用。

当最终模型是逻辑回归时,此步骤特别有用,逻辑回归在信用评分中仍然广泛使用,因为它透明、可解释且易于转换为记分卡。

对于分类变量,分类有助于减少模态数量。对于连续变量,它有助于捕获非线性风险模式,减少异常值的影响,处理缺失值,提高可解释性,并为证据权重转换准备变量。

在本文中,我们将研究为什么分类是信用评分的重要步骤,以及如何使用分类将原始变量转换为稳定的风险类别。

1. 为什么分类在信用评分中很重要

1.1 分类降低维度

让我们从分类变量开始。