摘要 — 基于深度神经网络 (DNN) 或深度学习 (DL) 的人工智能 (AI) 应用因其在解决图像分析和语音识别等问题方面的成功而变得流行。训练 DNN 需要大量计算,而高性能计算 (HPC) 一直是 AI 发展的关键驱动力。虚拟化和容器技术促成了云和 HPC 基础设施的融合。这些具有不同硬件的基础设施增加了部署和优化 AI 训练工作负载的复杂性。可以使用特定于目标的库、图形编译器以及通过改进数据移动或 IO 来优化 HPC 或云中的 AI 训练部署。图形编译器旨在通过为目标硬件/后端生成优化代码来优化 DNN 图的执行。作为 SODALITE(Horizon 2020 项目)的一部分,MODAK 工具旨在优化软件定义基础设施中的应用程序部署。 MODAK 使用数据科学家的输入和性能建模,将最佳应用程序参数映射到目标基础架构并构建优化的容器。在本文中,我们介绍了 MODAK,并回顾了 AI 的容器技术和图形编译器。我们说明了使用图形编译器和 Singularity 容器优化 AI 训练部署。使用 MNIST-CNN 和 ResNet50 训练工作负载的评估表明,定制的优化容器优于 DockerHub 的官方映像。我们还发现图形编译器的性能取决于目标硬件和神经网络的复杂性。索引术语 —MODAK、SODALITE、HPC、云、性能优化、AI 训练、Singularity 容器、图形编译器
主要关键词