GROQ的体系结构与高批量GPU的相反,GROQCHIP处理器具有230 MB的SRAM,可提供80TB/s的芯片带宽。图3显示了Groqchip如何非常有效地揭示指令级别并行性,记忆级并行性和数据级并行性,从而同时采用了计算和交流的独特方法。开发后,控制权被移交给软件端,以构建一个大规模的并行编译器,以利用所有这些形式的并发。这有助于有助于Groq在批次1.在其他体系结构中,必须处理256个用于培训的256 BA TCH,这意味着必须处理256张图像,并且“在应用程序可以提供有关第一个的信息之前从''中学到的图像。在GROQ在批次1运行,因此在收到的每个图像时处理每个图像(而不是等待所有256),不仅等待降低,精度会提高。另外,GROQ架构允许开发人员不摊销GPU和其他传统体系结构中固有的长潜伏期。
主要关键词