UFM-HA 采用双链路配置,包括主连接和辅助连接,以增强系统稳定性,同时降低连接挑战的风险。它利用两个优先级 IP 地址(主 IP 地址和辅助 IP 地址),Pacemaker 利用这两个 IP 地址建立两个连接链路。值得注意的是,DRBD 利用主 IP 地址来同步数据。建议将此 IP 地址用于传输速率较高的接口(例如 InfiniBand 接口),以实现最佳
对于需要比最大的 16-GPU 系统更多的 CUDA 核心和 GPU 内存的 AI 模型和数据批次,GPUDirect RDMA 和 NCCL 用于通过 100Gigabit InfiniBand 或以太网结构扩展 GPU 核心和内存。NGC 软件使部署多个 GPU 系统变得容易。可以聚合数十或数百个这样的系统来运行最大的 AI 模型和数据批次。结合高性能 NVMe 结构存储和网络,这些系统可以轻松快速地构建复杂的 AI 系统。
专为模拟、数据分析和 AI 的融合而构建 海量数据集、爆炸式增长的模型大小和复杂的模拟需要具有极快互连的多个 GPU。NVIDIA HGX™ 平台汇集了 NVIDIA GPU、NVIDIA ® NVLink ®、NVIDIA Mellanox ® InfiniBand ® 网络的全部功能,以及来自 NGC™ 的完全优化的 NVIDIA AI 和 HPC 软件堆栈,以提供最高的应用程序性能。凭借其端到端的性能和灵活性,NVIDIA HGX 使研究人员和科学家能够结合模拟、数据分析和 AI 来推动科学进步。
基于NVIDIA Quantum-2的QM9700和QM9790开关系统在1U标准底盘设计中,每个端口提供了前所未有的64个端口,为400GB/s Infiniband。单个开关的汇总双向吞吐量为每秒51.2 Terabits(TB/s),地标超过665亿数据包(BPPS)。NVIDIA Quantum-2支持最新的NVIDIA高速互连400GB/S技术,带来了高速,极低的潜伏期和可扩展的解决方案,其中包含了最先进的技术,例如远程直接内存访问(RDMA),适应性路由,适应性路由,以及NVIDIA可伸缩的层次汇总集合和锋利的层次结构(Sprand Cartigation and Replection and Redication and Redication and Redication and Redication and Reduction and Reduction and Reduction and Repluction and Reduction)™。
NVIDIA®Bluefield®-3数据处理单元(DPU)控制器是第三代数据中心基础架构,它使组织能够构建软件定义的,硬件的IT基础架构,从云到核心数据中心。具有200GB/S以太网或NDR200 200GB/S Infiniband网络连接,Bluefield-3 DPU控制器卸载,加速和隔离软件定义的网络,存储,安全性和管理功能,以极大地提高数据中心的性能,效率和安全性,以极大地提高数据中心。提供功能强大的计算以及I/O路径中的各种可编程加速引擎,BlueField-3非常适合满足最苛刻的应用程序的基础架构需求,同时通过NVIDIA DOCA™软件框架将完整的软件向后兼容。
NVIDIA®Bluefield®-3网络平台旨在加速数据中心基础架构工作负载,并引入加速计算和AI的时代。BlueField-3支持以太网和Infiniband连接,提供每秒400千兆位的速度(GB/s)。它将强大的计算与用于网络,存储和网络安全的软件定义的硬件加速器相结合 - 可以通过NVIDIA DOCA™软件框架完全编程。利用平台的强大功能,蓝场数据处理单元(DPU)和Bluefield Supernics彻底改变了传统的计算环境,将它们转变为适合任何规模的任何工作量的安全,高性能,高效,可持续的数据中心。
各种规模、用例和技术技能的组织都在寻找基础设施解决方案,以加速其人工智能 (AI)、机器学习 (ML) 和深度学习 (DL) 计划。WekaIO™ (Weka) 和 NVIDIA® 合作构建并验证了每个人都可以使用的高性能可扩展 AI 解决方案。本文档包含 Weka AI™ 参考架构 (RA) 解决方案的验证信息。该设计使用多达四个 NVIDIA DGX™ A100 系统、NVIDIA® Mellanox® Spectrum™ 以太网和 NVIDIA Mellanox Quantum™ InfiniBand 交换机实现。NVIDIA 和 Weka 使用行业标准基准测试工具验证了该系统的运行和性能。根据验证测试结果,该架构为训练工作负载提供了出色的线性扩展。组织可以从小规模开始,轻松独立地将计算和存储资源扩展到具有可预测性能的多机架配置,以满足任何 ML 工作负载要求。
亚特兰大,2024 年 11 月 20 日 法国领先的超级计算机 Jean Zay 致力于解决 HPC 与 AI 之间的融合,自 2019 年以来已进行第四次扩展,以满足法国 AI 社区的极高需求并促进许多学科和公司(尤其是法国 AI 初创企业)生成 AI 的崛起。这与法国总统埃马纽埃尔·马克龙在 VIVATECH 2023 期间提出的加强法国 #AIForHumanity 战略的愿景完全一致。为了满足法国 AI 社区的强烈需求(2023 年支持 1000 多个 AI 研究项目)和法国生成 AI 的兴起,GENCI 获得了 4000 万欧元的资金,用于提高其法国 AI 旗舰 Jean Zay 的容量,Jean Zay 是一台超级计算机,由密集科学计算发展和资源研究所 (IDRIS - CNRS) 托管和运营,提供定制的 AI 用户支持。由此,来自法国供应商 Eviden 的新计算分区共计拥有 1,456 个 NVIDIA Hopper GPU,托管在 14 个 BullSequana AI 1200H 机架中,364 个直接液冷刀片,每个刀片有 2 个英特尔 CPU、4 个 NVIDIA Hopper SXM 80GB GPU 和 4 个 NVIDIA ConnectX-7 400 Gbps InfiniBand 适配器,连接到 NVIDIA Quantum-2 InfiniBand 交换机。此外,还提供了 DDN 的 4.3 PB 闪存驱动器的全新分层存储,提供超过 1.2 TB/s 的读/写带宽以维持 I/O 密集型 AI 工作负载和近 40 PB 的高速旋转磁盘,所有这些都使用 Lustre 文件系统。该扩展项目于 2024 年 3 月授予 Eviden,创纪录的 4 个月安装时间使新分区从 2024 年 7 月起即可服务于 13 项大挑战。在 3 个月的预热阶段,这 13 个科学项目可以充分利用扩展容量,并得到 IDRIS、Eviden 和 NVIDIA 的紧密联合专业知识支持,以展示 AI、AI4S(科学人工智能)和使用数百个 GPU 的量子模拟领域的科学和工业突破。“ Jean Zay 超级计算机是促进法国人工智能研究和汇集法国学术和工业研究界的重要里程碑,”Atos 集团 Eviden 全球 HPC、人工智能和量子计算负责人、副总裁 Bruno Lecointe 评论道。“ Eviden 无比自豪能够支持 GENCI 和 CNRS 应对人工智能挑战,并能够在如此短的时间内提供法国技术竞争力的关键要素。我们期待看到 Jean Zay 取得突破并深化我们之间的合作。”
第一季度营收创纪录达到 226 亿美元,较上一季度增长 23%,较去年同期增长 427%。推出 NVIDIA Blackwell 平台,推动万亿参数级 AI 计算新时代,以及由 Blackwell 驱动的用于生成式 AI 超级计算的 DGX SuperPOD™。宣布分别用于 InfiniBand 和以太网的 NVIDIA Quantum 和 NVIDIA Spectrum™ X800 系列交换机,针对万亿参数 GPU 计算和 AI 基础架构进行了优化。推出搭载 NVIDIA NIM 推理微服务的 NVIDIA AI Enterprise 5.0,以加速企业应用开发。宣布台积电和新思科技将与 NVIDIA cuLitho 合作投入生产,以加速计算光刻,这是半导体制造业计算最密集的工作负载。宣布全球九台新型超级计算机正在使用 Grace Hopper 超级芯片,开启 AI 超级计算新时代。揭晓 Grace Hopper 超级芯片为 Green500 榜单上全球最节能超级计算机的前三名机器提供动力。扩大与 AWS、Google Cloud、Microsoft 和 Oracle 的合作,以推动生成式 AI 创新。与 Johnson & Johnson MedTech 合作,将 AI 功能引入手术支持。
ñ Open System Interconnection (OSI) and Transmission Control Protocol/Internet Protocol (TCP/IP) models ñ Internet Protocol (IP) version 4 and 6 (IPv6) (e.g., unicast, broadcast, multicast, anycast) ñ Secure protocols (e.g., Internet Protocol Security (IPSec), Secure Shell (SSH), Secure Sockets Layer (SSL)/ Transport Layer Security (TLS)) ñ Implications of multilayer protocols ñ Converged protocols (e.g., Internet Small Computer Systems Interface (iSCSI), Voice over Internet Protocol (VoIP), InfiniBand over Ethernet, Compute Express Link) ñ Transport architecture (e.g., topology, data/control/management plane, cut-through/store-and-forward) ñ Performance metrics (e.g., bandwidth, latency, jitter, throughput, signal-to-noise ratio) ñ交通流(例如,南北,东西方)的物理细分(例如,频段,频段外,气动,气动)ñ逻辑细分(例如,虚拟局部网络(VLAN),虚拟私人网络(VPN),虚拟路由和转发,虚拟域,虚拟域,网络/分段(E.G.E.G.E.G.E.G.E.G. distributed firewalls, routers, intrusion detection system (IDS)/intrusion prevention system (IPS), zero trust) ñ Edge networks (e.g., ingress/egress, peering) ñ Wireless networks (e.g., Bluetooth, Wi-Fi, Zigbee, satellite) ñ Cellular/mobile networks (e.g., 4G, 5G) ñ Content distribution networks (CDN) ñ Software定义的网络(SDN),(例如,应用程序编程接口(API),软件定义的广泛区域网络,网络函数虚拟化)ñ虚拟私有云(VPC)ñ监视和管理(例如,网络可观察性,流量流量,交通流量/塑形,容量管理,容量管理,故障检测和处理)