DCQCN

2024-08-04 机构名称:

通过以太网进行 RDMA，实现超大规模分布式 AI 训练

近年来，人工智能模型的计算密度和规模都快速增长，这推动了高效可靠的专用网络基础设施的建设。本文介绍了 Meta 用于分布式人工智能训练的融合以太网远程直接内存访问 (RoCE) 网络的设计、实现和运行。我们的设计原则涉及对工作负载的深入了解，并将这些见解转化为各种网络组件的设计：网络拓扑 - 为了支持一代又一代人工智能硬件平台的快速发展，我们将基于 GPU 的训练分离到其自己的“后端”网络中。路由 - 训练工作负载本质上会导致负载不平衡和突发性，因此我们部署了几次路由方案迭代以实现近乎最佳的流量分配。传输 - 我们概述了我们最初尝试使用 DCQCN 进行拥塞管理，但后来放弃 DCQCN 转而利用集体库本身来管理拥塞。运营 - 我们分享运营大型人工智能网络的经验，包括我们开发的工具和故障排除示例。

查看详细

File

2024-06-05 机构名称:

人工智能网络

UEC 旨在用超级以太网传输取代传统的 RoCE 协议，这是一种现代传输协议，旨在提供 AI 应用所需的性能，同时保留以太网/IP 生态系统的优势。UEC 将采用系统化方法，采用模块化、兼容、可互操作的层并紧密集成这些层，以提供对苛刻工作负载的整体改进，同时最大限度地减少通信堆栈更改并维护和促进以太网互操作性。这是为了解决 RDMA 的一些缺点，例如丢包、DCQCN、缺乏多路径以及与端点和流程相关的扩展限制。由于 AI 模型越来越敏感且越来越宝贵，UEC 还将在设计中融入网络安全，使其能够强大地支持未来的 AI/ML 和 HPC 网络。

查看详细

File

2022-07-25 机构名称:

带有 RDMA 的 AI/ML/存储/HPC 无损网络

现代 AI 应用程序需要高带宽、无损、低延迟、可扩展、多租户网络，该网络可以以 100Gbps、200 Gbps、400Gbps、800Gbps 及更高的速度互连数百和数千个 GPU。Arista EOS Ⓡ（可扩展操作系统）提供了实现优质无损、高带宽、低延迟网络所需的所有工具。EOS 支持流量管理配置、可调整的缓冲区分配方案以及使用 PFC 和 DCQCN 来支持 RoCE 部署。如果无法了解网络缓冲区利用率，则配置适当的 PFC 和 ECN 阈值可能会很困难。Arista EOS 提供了一种称为延迟分析器 (LANZ) 的简单解决方案，它可以通过实时报告跟踪接口拥塞和排队延迟。这有助于将应用程序的性能与网络拥塞事件关联起来，从而可以最佳地配置 PFC 和 ECN 值以最适合应用程序的要求。

查看详细

XiaoMi-AI文件搜索系统

DCQCN

通过以太网进行 RDMA，实现超大规模分布式 AI 训练

人工智能网络

带有 RDMA 的 AI/ML/存储/HPC 无损网络

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI