Loading...
机构名称:
¥ 1.0

摘要 — 量化通常用于深度神经网络 (DNN),通过降低激活和权重(又称张量)的算术精度来减少存储和计算复杂度。高效的硬件架构采用线性量化,以便将最新的 DNN 部署到嵌入式系统和移动设备上。然而,线性均匀量化通常无法将数值精度降低到 8 位以下,而不会牺牲模型精度方面的高性能。性能损失是由于张量不遵循均匀分布。在本文中,我们表明大量张量符合指数分布。然后,我们提出 DNA-TEQ 以自适应方案对 DNN 张量进行指数量化,以在数值精度和精度损失之间实现最佳权衡。实验结果表明,DNA-TEQ 提供的量化位宽比以前的方案低得多,平均压缩率比线性 INT8 基线高出 40%,准确度损失可以忽略不计,并且无需重新训练 DNN。此外,DNA-TEQ 在指数域中执行点积运算方面处于领先地位。对于一组广泛使用的 DNN,与基于 3D 堆叠内存的基线 DNN 加速器相比,DNA-TEQ 平均可提供 1.5 倍的加速和 2.5 倍的节能。索引术语 —DNN、量化、指数、Transformer

DNA-TEQ:用于 DNN 推理的自适应指数量化张量

DNA-TEQ:用于 DNN 推理的自适应指数量化张量PDF文件第1页

DNA-TEQ:用于 DNN 推理的自适应指数量化张量PDF文件第2页

DNA-TEQ:用于 DNN 推理的自适应指数量化张量PDF文件第3页

DNA-TEQ:用于 DNN 推理的自适应指数量化张量PDF文件第4页

DNA-TEQ:用于 DNN 推理的自适应指数量化张量PDF文件第5页

相关文件推荐