详细内容或原文请订阅后点击阅览
停止调整超参数。开始调整你的问题。
80% 的 ML 项目失败是因为糟糕的问题框架,而不是糟糕的模型。在编写训练代码之前定义正确问题的 5 步协议。停止调整超参数帖子。开始调整你的问题。首先出现在《走向数据科学》上。
来源:走向数据科学。您已经进入客户流失预测模型三周了,弯腰坐在笔记本电脑前,看着贝叶斯优化扫描爬行其第 200 次试验。验证 AUC 从 0.847 到 0.849。你截图看看您将其发布到 Slack 中。您的经理竖起了大拇指。
您感觉富有成效。你不是。
如果您曾经花费数天时间从机器学习 (ML) 指标中提取百分之几的分数,而您的脑后却有一个安静的声音低声说这一切真的重要吗?,那么您已经意识到了这个问题。那个声音是对的。用另一个网格搜索来压制它是这个行业最昂贵的习惯之一。
这是一个令人不安的数学:根据兰德公司 2024 年发布的研究,超过 80% 的人工智能 (AI) 项目失败。第一个根本原因并不是糟糕的模型。并不是数据不足。这是对需要解决的问题的误解(或误解)。不是建模失败。框架失败。
本文为您提供了一个具体的协议,可以在您编写一行训练代码之前捕获该故障。五步。每个人都进行一次对话,而不是一个 GPU 集群。
“算法方面的所有进步意味着实际上是时候在数据上花费更多时间了。”吴恩达并没有说要花更多时间在模型上。他说相反。
高效的拖延陷阱
超参数调整感觉就像工程。您有一个搜索空间。你有一个目标函数。您迭代、测量、改进。反馈循环很紧密(从几分钟到几小时),进度是可见的(指标上升),并且工作对您的团队来说是清晰的(“我将 AUC 提高了 2 个点”)。
但这是唯一重要的进展。
原因是结构性的。调整在定义的问题内进行。如果问题定义错误,调优优化的功能不会映射到业务价值。你会得到一个漂亮的模型来解决错误的问题。再多的 Optuna 扫描也无法修复不应该存在的目标变量。
如何:询问:
停止。
