摘要 — 人工智能的运营已成为研究和工业界的一项重大努力。管理人工智能应用程序生命周期的自动化运营管道将成为未来基础设施工作负载的重要组成部分。为了优化生产级人工智能工作流平台的运营,我们可以利用现有的调度方法,但要微调运营策略以实现特定于应用程序的成本效益权衡,同时满足机器学习 (ML) 模型的特定领域特征,例如准确性、稳健性或公平性,是一项挑战。我们提出了一个基于跟踪驱动的模拟实验和分析环境,使研究人员和工程师能够设计和评估大规模人工智能工作流系统的此类运营策略。IBM 开发的生产级人工智能平台的分析数据用于构建综合模拟模型。我们的模拟模型描述了管道和系统基础设施之间的交互,以及管道任务如何影响不同的 ML 模型指标。我们在独立的随机离散事件模拟器中实现了该模型,并提供了运行实验的工具包。合成跟踪可用于临时探索以及实验的统计分析,以测试和检查管道调度、集群资源分配和类似的操作机制。
主要关键词