automl的阴影侧:当无代码工具造成的伤害超过帮助

抽象在软件中并不是什么新鲜事物,但是在机器学习中,没有监督的抽象将自动化变成建筑风险。帖子的阴影一面:当无代码工具的痛苦比首先迈向数据科学的帮助更大时。

来源:走向数据科学

已成为许多组织的机器学习的门户药物。它准确承诺要在压力下要听到哪些团队:您带上数据,我们将处理建模。没有管道可以管理,没有可调节的超参数,也无需学习scikit-learn或tensorflow;只需单击,拖动和部署。

起初,这感觉令人难以置信。

您将其指向搅动数据集,运行训练循环,并吐出一个模型的排行榜,其AUC分数似乎太好了,无法实现。您将排名最高的模型部署到生产中,将一些API汇合,然后将其设置为每周进行重新训练。业务团队很高兴。没有人必须编写一行代码。

然后有一些微妙的休息。

支持门票停止正确确定优先级。欺诈模型首先忽略高风险交易。或者您的Churn Model旗帜忠实,活跃的客户,以供外展活动,同时错过即将离开的人。当您寻找根本原因时,您会意识到没有GIT提交,数据模式差异或审核跟踪。只是一个曾经工作的黑匣子,现在行不通。

这不是建模问题。这是一个系统设计问题。

自动工具删除摩擦,但它们也删除了可见性。在此过程中,他们暴露了传统ML工作流程旨在减轻的建筑风险:无声漂移,未跟踪的数据移动以及隐藏在无代码接口后面的故障点。与Jupyter笔记本中的错误不同,这些问题不会崩溃。它们侵蚀。

本文探讨了使用汽车管道使用的情况,而没有使机器学习可持续可持续的保障措施时会发生什么。使机器学习更轻松并不意味着放弃控制权,尤其是当错误的成本不仅是技术性的,而且是组织时。

架构自动构建:以及为什么是问题

这会产生两个系统性问题:

    行为的细微变化:直到下游影响加起来之前,没有人注意到。
行为的微妙变化: 没有调试的可见性: (作者的图像) mlops

结论