详细内容或原文请订阅后点击阅览
大规模机器学习:管理生产中的多个模型
从一个模型到管理一个庞大的投资组合:10 年的行业经验教会了我什么后大规模机器学习:在生产中管理多个模型首先出现在走向数据科学上。
来源:走向数据科学你自己真正的机器学习产品在各大科技公司或部门实际运行情况如何?如果是,这篇文章适合您 🙂
在讨论可扩展性之前,请立即阅读我的第一篇关于生产中机器学习基础知识的文章。
在上一篇文章中,我告诉您我已经在该行业担任了 10 年的 AI 工程师。在我职业生涯的早期,我了解到笔记本中的模型只是一个数学假设。只有当它的输出影响到用户、产品或产生金钱时,它才变得有用。
我已经向您展示了单个项目的“生产中的机器学习”是什么样子。但今天,我们讨论的是规模:同时管理数十个甚至数百个 ML 项目。近年来,我们已经从沙盒时代进入基础设施时代。 “部署模型”现在是一项不容忽视的技能;真正的挑战是确保大量模型组合可靠且安全地工作。
1. 离开沙盒:可用性策略
要大规模理解 ML,您首先需要抛弃“沙盒”思维模式。在沙箱中,您拥有静态数据和一个模型。如果它发生漂移,你会看到它,你会阻止它,你会修复它。
但是,一旦您过渡到规模模式,您就不再管理模型,而是管理投资组合。这就是 CAP 定理(一致性、可用性和分区容错性)成为现实的地方。在单模型设置中,您可以尝试平衡权衡,但从规模上看,不可能在 3 个指标上做到完美。你必须选择你的战斗,而且通常情况下,可用性成为重中之重。
为什么?因为当您运行 100 个模型时,总会出现一些问题。如果每次模型出现偏差时就停止服务,那么您的产品将有 50% 的时间处于离线状态。
2. 监控挑战以及传统指标为何大规模消亡
3. 工程墙怎么样
4.小心标签泄露
我的提示:
5. 最后,人类循环
👉LinkedIn:Sabrine Ben diemerad
