详细内容或原文请订阅后点击阅览
停止盲目再训练:利用PSI构建更智能的监控管道
数据科学家群体稳定性指数 (PSI) 指南这篇文章《停止盲目再训练:使用 PSI 构建更智能的监控管道》首先出现在《走向数据科学》上。
来源:走向数据科学,清理数据,进行一些转换,对其进行建模,然后部署模型以供客户端使用。
对于数据科学家来说,这需要做很多工作。但一旦模型进入现实世界,这项工作就还没有完成。
仪表板上的一切看起来都很完美。但在幕后,有些事情出了问题。大多数模型都不会严重失败。它们不会像有缺陷的应用程序那样“崩溃”。相反,他们只是……随波逐流。
请记住,您仍然需要对其进行监控以确保结果准确。
最简单的方法之一是检查数据是否漂移。
换句话说,您将测量模型中新数据的分布是否与用于训练模型的数据的分布相似。
为什么模特不尖叫
当您部署模型时,您就押注未来看起来就像过去一样。您预计新数据与用于训练的数据相比将具有相似的模式。
让我们想一想:如果我训练我的模型来识别苹果和橙子,如果我的模型突然收到的都是菠萝,会发生什么?
是的,现实世界的数据是混乱的。用户行为发生变化。经济发生转变。即使数据管道中的一个很小的变化也会让事情变得混乱。
如果您等待准确性或 RMSE 等指标下降,那么您已经落后了。为什么?因为标签通常需要数周或数月才能到达。您需要一种在损害造成之前发现麻烦的方法。
PSI:数据烟雾探测器
人口稳定性指数(PSI)是一个经典工具。它诞生于信用风险领域,用于监控贷款模型。
人口稳定性指数 (PSI) 是一种以信息论为基础的统计指标,可量化一个概率分布与参考概率分布之间的差异。
它不关心模型的准确性。它只关心一件事:今天传入的数据与训练期间使用的数据是否不同?
解读:数字告诉您什么
我们通常遵循以下经验阈值:
