
字节跳动目前正在构建用于训练和推理目的的通用图形处理单元(GPGPU)集群,并且训练集群变得越来越大,带来了新的网络基础设施挑战。
AI网络基础设施的关键要求
构建在作业完成时间 (JCT) 方面具有最佳性能的大型 GPU 集群
该要求的具体内容如下:
需要提供高可用性、低延迟、最小抖动和无损环境的网络结构,以最大限度地减少 GPU 在执行集体操作时等待网络资源的空闲周期。
从可能导致此类问题的故障中无缝恢复,无论它们是导致延迟小幅增加还是作业重新启动。
具有无阻塞二分带宽、低延迟和丢包率的结构,可在任何规模的各种工作负载中提供一致的性能。
DriveNets 网络云简介
英伟达是人工智能热潮的最大受益者之一。大多数公司都熟悉 Nvidia 的解决方案,并使用该公司的 GPU 和基于 InfiniBand 的连接解决方案。也就是说,公司也了解与供应商锁定相关的潜在风险,并提倡建立更加多样化的供应商生态系统。因此,像以太网这样的开放和成熟的连接协议正在成为首选。
尽管预计以太网将取代 InfiniBand,但以太网目前的缺点主要与性能有关。一些以太网“增强功能”可以填补这一性能差距:
- 独特的基于端点的拥塞控制机制
- 开放超以太网联盟(UEC)提供基于以太网的、开放的、可互操作的高性能全通信堆栈架构,旨在满足大规模人工智能和高性能计算不断增长的网络需求。
- 调度结构的替代方案包括分解分布式机箱 (DDC)、Cisco 的分解调度结构 (DSF) 和 Arista 的分布式 Etherlink 交换机 (DES)。这些可以在训练人工智能工作负载所需的规模上提供最佳性能。
该要求的详细信息如下:
- 支持任何 GPU 和网络接口控制器/卡 (NIC) 的开放生态系统,与工作负载无关,并可容纳多种应用程序和配置。
- 基于标准的以太网技术,而不是像 InfiniBand 这样的专有技术,这可能会导致供应商锁定
- 超可扩展:在一个AI集群中支持数千个400/800G端口
DDC:预定结构解决方案
DDC(分布式分布式机箱)是一种满足上述所有要求的调度以太网结构解决方案。
预定面料具有以下优点:
- 基于单元的结构,允许整个集群充当单个以太网节点:支持从任何 GPU 到任何 GPU 的单个以太网跳,类似于连接到机箱时,但远远超出了机箱的限制 大规模配置。可能的。
- 物理跨架构:架顶式(ToR)交换机是网络云数据包转发器(NCP)白盒,而光纤交换机是网络云结构(NCF)白盒。
- 信元喷射机制:信元从入口NCP均匀分布到所有NCF,再到出口NCP,保证负载分布完全均匀,不拥塞,无大象流效应。
- 无数据包丢失:每个入口 NCP 虚拟输出排队 (VOQ) 和入口 NCP 上基于授权的流量控制
- 每个集群支持 32K GPU (800 Gbps)
- 无损且可预测的连接、低延迟和几乎零抖动
- 纳秒级故障转移,无作业重置
- 无供应商锁定:独立于供应商的 GPU、DPU/NIC、ASIC、工作负载
- 支持多样化的人工智能应用:即使网络需求发生变化也能保持高性能
- 基于以太网:利用众所周知的协议(以太网)可互操作且易于构建和操作
- 经过验证的解决方案:DriveNets Network Cloud 已在全球最大的网络中使用
字节跳动之旅
过去几个月,字节跳动与 DriveNets 和 Broadcom 合作测试了 DDC 预定结构,并取得了积极的结果。这将导致字节跳动于 2024 年 7 月部署全球首个采用 DDC 预定结构的 1K GPGPU 生产集群。
构成及规模
该计算集群由 1,280 个 xPU 和 640 个端点组成,速度为 400GE。它由两层 DDC 组成,并形成跨集群的非阻塞域。叶子层由 20 个紧凑型 2RU NCP 白盒组成,每个白盒配有两个 Broadcom Jericho2C+ ASIC,为 xPU 提供 32 个 400GE 端口,为 Masu 提供 40 个 400G 端口。主干层由 20 个采用相同 2RU 外形的 NCF 白盒组成,每个白盒利用两个 Broadcom Ramon ASIC 为每个系统提供总共 48 个 400G 端口。 NCP 叶节点提供本机预留空间。每个叶节点连接到 20 个主干 NCF,提供大约 25% 的冗余。即使最多三个 NCF 发生故障,该结构也能维持接近 100% 的吞吐量。根据字节跳动的验证结果,如果NCF进一步失效,性能会线性下降。
分散或集中管理
调度的结构可以集中管理或分布式。通过集中管理,控制器(包括用于1+1保护的辅助控制器)协调NCP和NCF,并在专用服务器上运行协议。字节跳动选择了基于革命性的 DriveNets 网络操作系统 (DNOS) 的去中心化方法。这类似于管理非调度结构,其中每个节点独立运行协议,并且操作更改最少。这种方法与字节跳动现有的编排系统无缝集成。
电源效率
NCP 和 NCF 白盒非常节能。 NCP和NCF的开关容量分别为28.8T和19.2T,但不带收发器的典型功耗分别为667W和377W。这允许灵活的物理放置。根据数据中心的功率和热容量,您可以将 NCP 与 xPU 服务器放置在同一机架中,或者与 NCF 放置在网络机架中。这种灵活性使字节跳动能够在数据中心内以最佳配置部署 NCP 和 NCF。
经过验证的解决方案
截至本文发布时,该集群已上线两个月,正在处理来自各种应用程序的推理和训练流量。字节跳动现有的针对非调度结构设计的运营工具包可以轻松移植到该集群中。集群按预期运行并提供流畅的用户体验。
而这仅仅是开始。