深度神经网络 (DNN) 的训练每年都变得越来越耗费资源和能源。遗憾的是,现有的研究主要侧重于优化 DNN 训练以加快完成速度,而往往不考虑对能源效率的影响。在本文中,我们观察到,提高训练性能的常见做法往往会导致能源使用效率低下。更重要的是,我们证明了能耗和性能优化之间存在权衡。为此,我们提出了 Zeus,这是一个优化框架,可通过自动为重复的 DNN 训练作业找到最佳的作业和 GPU 级配置来解决这一权衡。Zeus 使用在线探索-利用方法结合即时能源分析,避免了昂贵的离线测量,同时适应数据随时间的变化。我们的评估表明,Zeus 可以将不同工作负载的 DNN 训练能源效率提高 15.3%–75.8%。