造成模型债务的主要原因是资源和工作流管理不力,这使得从原型到成功部署的模型难以得到指导。由于多个团队在共享 AI 基础架构上开展项目,管理访问变得具有挑战性。团队发现自己使用共享日历、电子表格和即时消息来解决日程安排冲突。随着 AI 团队的扩大,监控、报告和工作优先级等日常管理需求变得更加复杂。这导致团队争先恐后地使用硬件——有时即使没有正在运行的工作,也会无限期地保留一个或多个系统,以确保他们在需要时可以访问。在某些情况下,这些预留会长时间处于非活动状态——或者更糟的是,被遗忘——实际上是将容量扔进了垃圾箱。没有中央清算所可以决定可用硬件的用户和作业的优先级。
主要关键词