详细内容或原文请订阅后点击阅览
Oracle为人工智能任务创建了超级集群
它结合了数十万个 Nvidia GPU,峰值性能为 16 ZPLOPS。
来源:OSP网站大数据新闻甲骨文推出了新一代集群解决方案——甲骨文云基础设施Zettascale10,结合了多个数据中心的数十万块Nvidia GPU,该公司称之为最大的云AI超级计算机。其峰值性能达到16 ZPLOPS。
OCI Zettascale10 基于该公司于 2024 年 9 月推出的第一个云计算集群 Zettascale 的改进而构建。根据 Oracle 的说法,新架构具有高能效光学器件和“超优化”密度,因为 Zettascale10 OCI 集群位于 2 公里半径范围内的千兆瓦数据中心,限制了大规模 AI 训练工作负载的 GPU 到 GPU 延迟。 Oracle Acceleron RoCE(融合以太网上的 RDMA)网络架构还最大限度地减少了系统操作期间的延迟,确保了所有组件的交互。
Oracle 解释说,将该网络架构与 Nvidia 的下一代 AI 基础设施相结合,将为大规模 AI 工作负载提供所需的数千兆瓦计算能力,包括与 OpenAI 合作的 Stargate 项目中最大的 AI 模型的训练和节能推理。
信息技术研究组专家将该平台的优势归因于企业所需的生产力、可扩展性和运营效率的提高,适应行业人工智能应用的需求。
Oracle代表还宣布了Oracle Acceleron网络包的新功能——专用于特定任务的网络结构、融合网络适配器、主机级别零信任的数据包路由。根据 Oracle 的说法,所有这些都可以使网络和存储复合体的吞吐量增加一倍,从而减少延迟和成本。
