详细内容或原文请订阅后点击阅览
误解对重新培训的误解:为什么模型刷新并不总是修复
再训练很容易;知道什么时候不是真正的挑战。在机器学习中,性能下降很少与陈旧的重量有关。他们是关于误解的信号。帖子的误解是对重新培训的误解:为什么模型刷新并不总是首先出现在数据科学方面。
来源:走向数据科学短语“ Just Reating the Model”很简单。每当指标下降或结果变得嘈杂时,它已成为机器学习操作中的首选解决方案。我目睹了整个MLOPS管道都被重新汇总以每周,每月或硕士后的基础上进行再培训,并且从不质疑再培训是否是合适的事情。
但是,这是我所经历的:再培训并非一直是解决方案。通常,这仅仅是对更基本的盲点,脆弱的假设,差可观察性或未对准目标进行纸张的一种手段,而这些方法无法简单地通过向模型提供更多数据来解决。
再训练反射来自放错的置信
重新培训在设计可扩展的ML系统时经常由团队进行操作。您构建循环:收集新数据,证明性能并在指标减少时进行重新培训。但是缺少的是暂停,或者是询问绩效为什么下降的诊断层。
我与建议每周重新培训的推荐引擎合作,尽管用户群不是很动态。最初,这似乎是良好的卫生,使模型保持新鲜。但是,我们开始看到性能波动。在跟踪问题后,我们刚刚发现,我们正在注入训练集或有偏见的行为信号:不活跃用户的过度加权印象,点击UI实验的伪像或黑暗发射的不完整反馈。
重新循环没有纠正系统;它正在注入噪音。
重新训练会使事情变得更糟
意想不到的从临时噪声学习
在我审核的欺诈检测管道之一中,进行了重新训练,以预定的时间表进行:周日的午夜。但是,一个周末,针对新用户发起了营销活动。他们的举止有所不同 - 他们要求更多的贷款,更快地完成他们的贷款,并具有一些风险更高的配置文件。