为什么 MLOps 再训练计划失败 - 模型不会忘记，他们会感到震惊 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

为什么 MLOps 再训练计划失败 - 模型不会忘记，他们会感到震惊

2026年4月10日 15:00 33 Comments

我们将艾宾浩斯遗忘曲线拟合到 555,000 笔真实欺诈交易中，得到 R² = −0.31 — 比平坦线更糟糕。这一结果解释了为什么基于日历的再训练在生产中失败，并引入了一种在实际系统中有效的实用冲击检测方法。文章《为什么 MLOps 重新训练计划失败——模型不会忘记，他们会感到震惊》一文首先出现在《走向数据科学》上。

来源:走向数据科学

大多数生产机器学习模型不会平稳衰减——它们会在突然的、不可预测的冲击中失败。当我们对 555,000 笔类似生产的欺诈交易拟合指数“遗忘曲线”时，它返回 R² = −0.31，这意味着它的表现比预测平均值更差。

在设置（或信任）任何再训练计划之前，请对现有的每周指标运行此 3 行诊断：

报告 = tracker.report()

print(report.forgetting_regime) # “平滑”或“偶发”

print(report.fit_r_squared) # < 0.4 → 放弃日程假设

R² ≥ 0.4 → 平稳状态→ 预定的再培训工作

R² < 0.4 → 情景机制→ 使用冲击检测，而不是日历

如果您的 R² 低于 0.4，则您的模型并未“衰减”，并且从半衰期估计得出的所有内容都可能具有误导性。

从一周开始

这是第七周。

召回率在 7 天内从 0.9375 跌至 0.7500。没有发出警报。每月总指标移动了几个点——完全在可接受的范围内。仪表板显示绿色。

那一周抹去了三周的模型改进。该模型用来捕获的数十起欺诈案件直接通过而未被发现。标准指数衰减模型——我构建的每个再训练计划的数学支柱——不仅无法预测它。

它的预测恰恰相反。

R² = −0.31。比平线更糟糕。

这个数字打破了我对 MLOps 的看法。不是戏剧性的。悄悄。这种突破会让你回去重新审视你多年来一直持有的假设，但从未质疑过它。

本文就是关于这个假设的，为什么它对于整个生产机器学习系统来说是错误的，以及该怎么做——以公共数据集上的实数为后盾，你可以在一个下午重现。

完整代码：https://github.com/Emmimal/mlops-forgetting-curve/

无人质疑的假设

整个再培训安排行业都是建立在一个借鉴自 19 世纪德国心理学家的单一想法之上的。

R(t) = R₀ · e^(−λt)所以我做到了。实验

回去指标 forgetting 接受的错误的使用可预测的模型欺诈 0.31 冲击意味着计划的预定的机器学习 print 仪表板学习系统平均值数据集 report 表现指数半衰期训练计划内容为什么模型改进发出警报假设 0.4 假设的衰减心理学可接受的现有的生产的戏剧性的突然的