详细内容或原文请订阅后点击阅览
为什么强大的机器学习看似简单
或者为什么看似强大的东西在方法论上可能是脆弱的这篇文章《为什么强大的机器学习看似简单》首先出现在《走向数据科学》上。
来源:走向数据科学杀死牛头怪,但真正的危险不仅仅是怪物本身。在如此复杂的迷宫中,你可能会失去所有的方向感,以至于找到回去的路变得和战斗一样困难。这就是阿里阿德涅的线索的重要性:它代表了在复杂性中前进而不迷失所需的纪律。在机器学习 (ML) 中,可见的挑战可能是击败一个指标(牛头怪),但真正的风险在于围绕它构建的迷宫:隐藏的假设、脆弱的默认值、数据泄漏、误导性的评估选择、不必要的复杂性以及可能使模型看起来比实际情况更强大的预处理决策。本文遵循这一思路,重点讨论如何因错误的原因而出现明显的强有力的结果,以及为什么保持方法论方向通常比选择最复杂的路径更重要。
现实检查
在机器学习中,早期原型产生引人注目的指标并不罕见。乍一看,这可能表明存在真正的机会:该模型似乎很有前途,信号似乎很强烈,而且结果看起来令人鼓舞。但在实践中,仅仅强大的指标并不意味着模型真正理解了底层现象、概括良好、稳健或已准备好在现实环境中部署。有几个方法论原因可以解释为什么模型看起来比实际情况要强大得多。
正如 Catalini 等人。 [1] 认为,人工智能丰富的世界中真正的瓶颈可能从生成输出转向验证它们。从这个意义上说,核心挑战不再只是生成快速、低成本的代码和令人信服的结果,而是开发评估这些结果是否真正值得信赖所需的方法论。
一些隐藏的机器学习陷阱
总之,我的目标是针对削弱实践中实施的最常见问题提供实用建议:
