您的模型尚未完成:理解并修复模型漂移

生产模型如何随着时间的推移而失败,以及如何在它破坏信任之前捕获并修复它。您的模型尚未完成:理解和修复模型漂移一文首先出现在走向数据科学上。

来源:走向数据科学

您已将模型投入生产。

它做出预测并将其提供给利益相关者。

管道是自动化的。

现在是时候放松一下了,你的工作已经完成了。

我也喜欢做梦。

好了,回到现实吧。让我们讨论模型漂移:它是什么、为什么会发生、如何检测它以及如何在它秘密破坏性能和利益相关者对模型的信任之前解决它。

什么是模型漂移?

模型漂移是指预测模型的性能随着时间的推移而恶化,即使是最强大、最准确的模型也面临着这种风险。模型漂移并不是训练技术不佳或数据收集不当的反映,而是所有数据科学家都必须密切关注的事情。

让我们看一个例子。二元分类器模型是根据两年的历史数据进行训练的。性能不错,AUC在0.9s以下,查准率和查全率都足够高。该模型通过同行评审阶段并进入生产环境。在这里,它开始实时预测。 90 天后,数据科学家查询模型在生产中做出的预测,并通过计算性能指标的验证脚本运行它们。性能与 POC(概念验证)的预期完全一致,并传达给利益相关者:“模型的性能符合预期。预测是准确的。”

这是许多预测模型在生产中面临的严酷现实。我们来谈谈为什么会发生这种情况。

为什么会发生模型漂移?

归根结底,模型漂移的发生是因为模型存在于现实世界中。该模型是根据一个现实进行训练的,而自从部署到生产中以来,这一现实已经发生了某种程度的变化。

模型漂移通常分为两类:

数据漂移(功能更改)

概念漂移(关系变化/人口转变)

让我们看一些例子。

示例#1:数据漂移

示例 #2:概念漂移

如何检测和修复模型漂移

总结