摘要 - 备受瞩目的人工智能和机器学习(AI/ML)工作负载,对标准和复杂的浮点数的高性能矩阵操作的需求仍然很强,但服务不足。ever,广泛采用的低精度矩阵处理单元(MXU)只能满足对AI/ML工作负载的需求,AI/ML工作负载在其目标域以外运行应用程序时未充分利用或空闲。本文介绍了M 3 XU,支持IEEE 754单精制和复杂32位浮点数的多模式矩阵处理单元。m 3 XU不依赖更精确的乘数。相反,M 3 XU提出了一种多步方法,该方法扩展了AI/ML工作负载的现有MXU。所得的m 3 XU可以无缝地升级现有系统,而无需程序员的努力并保持现有内存子系统的带宽需求。本文通过全系统仿真和硬件综合评估M 3 XU。m 3 XU可以达到32位矩阵乘法的3.64×加速度,与常规矢量处理单元相比,对于复杂数字操作的3.51×速度。
主要关键词