详细内容或原文请订阅后点击阅览
计算最佳量化感知培训
量化感知训练(QAT)是提高量化神经网络准确性的领先技术。 PREVI-OUS的工作表明,将训练分解为完整精确阶段(FP)阶段,随后与单独的QAT相比,QAT阶段可产生出色的验证。但是,FP和QAT相之间的计算的最佳分配仍然是未开关的。我们通过各种计算预算,QAT位宽度和型号尺寸从86.0m到2.2B进行了广泛的实验,以研究不同的QAT持续时间如何影响最终性能。我们证明了这一点,与以前的发现相反,…
来源:Apple机器学习研究量化感知训练 (QAT) 是提高量化神经网络准确性的领先技术。之前的工作表明,将训练分解为全精度(FP)阶段,然后是 QAT 阶段,与单独的 QAT 相比,可以产生更高的准确性。然而,FP 和 QAT 阶段之间的最佳计算分配仍不清楚。我们对各种计算预算、QAT 位宽和从 86.0M 到 2.2B 的模型大小进行了广泛的实验,以研究不同的 QAT 持续时间如何影响最终性能。我们证明,与之前的发现相反,QAT 与 FP 训练的损失最优比率随着计算总量的增加而增加。此外,可以使用每个参数字节的标记统计来准确预测各种模型大小和量化宽度的最佳分数。从实验数据中,我们得出了一个损失缩放定律,该定律可以预测不同 QAT/FP 计算分配策略和 QAT 位宽度的最佳 QAT 比率和最终模型性能。我们使用缩放定律进行进一步的预测,并通过实验进行验证,包括在给定内存约束下哪种 QAT 位宽是最佳的,以及不同位宽的 QAT 精度与全精度模型精度的比较。此外,我们提出了一种新颖的冷却和 QAT 融合方法,该方法与量化感知训练联合执行学习率衰减,消除冗余的全精度模型更新并实现显着的计算节省。这些发现为高效 QAT 规划提供了实用见解,并能够使用相同的计算预算训练更高质量的量化模型。
- † 洛桑联邦理工学院 (EPFL)** 在 Apple 期间完成的工作
