Loading...
机构名称:
¥ 1.0

摘要 — GPU 被广泛用于加速机器学习工作负载的训练。随着现代机器学习模型变得越来越大,它们需要更长的时间来训练,从而导致更高的 GPU 能耗。本文介绍了 GPOEO,这是一种用于机器学习训练工作负载的在线 GPU 能量优化框架。GPOEO 通过采用新颖的在线测量、多目标预测建模和搜索优化技术来动态确定最佳能量配置。为了表征目标工作负载行为,GPOEO 使用 GPU 性能计数器。为了减少性能计数器分析开销,它使用分析模型来检测训练迭代变化,并且仅在检测到迭代偏移时收集性能计数器数据。GPOEO 采用基于梯度提升的多目标模型和局部搜索算法来找到执行时间和能耗之间的权衡。我们通过将 GPOEO 应用于在 NVIDIA RTX3080Ti GPU 上运行的两个 AI 基准测试套件中的 71 个机器学习工作负载来评估它。与 NVIDIA 默认调度策略相比,GPOEO 平均节能 16.2%,平均执行时间略有增加 5.1%。

机器学习训练工作负载的动态 GPU 能量优化

机器学习训练工作负载的动态 GPU 能量优化PDF文件第1页

机器学习训练工作负载的动态 GPU 能量优化PDF文件第2页

机器学习训练工作负载的动态 GPU 能量优化PDF文件第3页

机器学习训练工作负载的动态 GPU 能量优化PDF文件第4页

机器学习训练工作负载的动态 GPU 能量优化PDF文件第5页

相关文件推荐

2020 年
¥25.0
2022 年
¥1.0