摘要 - 备受瞩目的人工智能和机器学习(AI/ML)工作负载,对标准和复杂的浮点数的高性能矩阵操作的需求仍然很强,但服务不足。ever,广泛采用的低精度矩阵处理单元(MXU)只能满足对AI/ML工作负载的需求,AI/ML工作负载在其目标域以外运行应用程序时未充分利用或空闲。本文介绍了M 3 XU,支持IEEE 754单精制和复杂32位浮点数的多模式矩阵处理单元。m 3 XU不依赖更精确的乘数。相反,M 3 XU提出了一种多步方法,该方法扩展了AI/ML工作负载的现有MXU。所得的m 3 XU可以无缝地升级现有系统,而无需程序员的努力并保持现有内存子系统的带宽需求。本文通过全系统仿真和硬件综合评估M 3 XU。m 3 XU可以达到32位矩阵乘法的3.64×加速度,与常规矢量处理单元相比,对于复杂数字操作的3.51×速度。
[eTM yV1⁄2krTMMŒk™{kt Œkr÷ƒk™ ‚hfkh ‚kÚku Íz...Úke ŒuTMk ‚tƒtÄku {sƒqŒ fhe hÌkwt Au fkwt TM yV1™krTMMŒkTM{kt Œkr÷ƒk™ ‚hfkh ‚kÚku Íz...Úke ŒuTMk ‚tƒtÄku {sƒqŒ fhe hÌkwt Au。 yV1⁄2krTMMŒkTM{ktÚke y{urhfkTMe rðËkÞ ƒkË [e™u yV1⁄2krTMMŒk™{kt ...kuŒkTMe nkshe y{h™ku ƄkÒ™u TMuf «kusuõxT,{kt kwfký fÞwO Au。 yV1⁄2kTM ...Âç÷f ðfoT‚ r{r™MxÙeTMk «ðõŒk {kunB{Ë yþhV nfþuTMk‚u {erzÞk™u sýkÔþÞwt fu [keÄ÷þwt hu [keÄ÷þ {uLx EhkTM ÚkETMu yV1™krTMMŒkTM ...nkutåÞwt Au。 nfþuTMk,u sýkÔÞwt nŒwt fu yk rþ...{uLx, su{kt 1,000 x™ ÷ku¾tzèe fkuR÷™ku,{kðuþ ÚkkÞ Au,ŒhŒu V Rhk ktŒTMk kuÍkTMf MxuþTMu ...nkutåÞku nŒku。 yk …“÷kt ºkýuÞ Ëuþku ðå[uTMk ûkuºk{kt ðÄe hnu÷k ðu…khâu «rŒ®ƒrƒŒ fhu Au, fký fu ºkýuÄkÄku e {kTMðk{kt ykðu Au。 ònuh ƒktÄfk{ {tºkk÷Þ™k «ðõŒkyu fÌkwt, "3⁄4kV-nuhkŒ huÕðu «kusuõx ...qýo ÚkðkÚke yV1⁄2k™ yÚÚâkŒkke ük { u yk ûkuok{kt ðu...kh y™u
