摘要 近年来,针对通用矩阵乘法 (GEMM) 优化的硬件架构已得到深入研究,以为深度神经网络提供更好的性能和效率。随着分批、低精度数据(例如本文中的 FP8 格式)的趋势,我们观察到值重用的未开发潜力越来越大。我们提出了一种新颖的计算范式,即值级并行,其中唯一的乘积只计算一次,不同的输入通过时间编码订阅(选择)它们的乘积。我们的架构 Carat 采用值级并行并将乘法转换为累积,使用高效的无乘法器硬件执行 GEMM。实验表明,平均而言,Carat 可将等面积吞吐量和能源效率提高 1.02 ⇥ 和 1.06 ⇥(相对于脉动阵列)以及 3.2 ⇥ 和 4 ⇥。 3⇥当扩展到多个节点时。
主要关键词