ByteDance は現在、トレーニングと推論の目的で汎用グラフィックス プロセッシング ユニット (GPGPU) クラスターを構築しており、トレーニング クラスターはますます大規模になり、ネットワーク インフラストラクチャの新たな課題が生じています。
ジョブ完了時間 (JCT) に関して最高のパフォーマンスを発揮する大規模な GPU クラスターの構築
この要件の詳細は以下の通りです:
ドライブネッツ ネットワーククラウドの紹介
Nvidia は、AI ブームの最大の恩恵を受けている企業です。ほとんどの企業は Nvidia のソリューションに精通しており、同社の GPU と InfiniBand(インフィニバンド)ベースの接続ソリューションを使用しています。とはいえ、企業はベンダーロックインに伴う潜在的なリスクも理解しており、より多様なベンダーエコシステムを提唱しています。その結果、イーサネットのようなオープンで確立された接続プロトコルが好まれるようになっています。
イーサネットが InfiniBand に取って代わると予測されていますが、現在イーサネットには主にパフォーマンスに関する欠点があります。このパフォーマンスギャップを埋めるために、イーサネットの「拡張機能」がいくつか用意されています:
DDC(Disaggregated Distributed Chassis, 分離分散型シャーシ)は、上記の要件をすべて満たすスケジュールドイーサネットファブリックソリューションです。
スケジュールドファブリックには、以下のようなメリットがあります:
ByteDance は DriveNets および Broadcom と提携し、過去数カ月にわたって DDC スケジュールドファブリックをテストし、良好な結果を得ました。これにより ByteDance は、2024 年 7 月に DDC スケジュールドファブリックを搭載した世界初の 1K GPGPU のプロダクションクラスターを展開することになりました。
構成と規模
この計算クラスターは、1,280 個の xPU と 640 個のエンドポイントで構成され、速度は 400GE です。2 層の DDC で構成され、クラスター全体でノンブロッキング・ドメインを形成します。リーフレイヤーは、コンパクトな 2RU の NCP ホワイトボックス 20 台で構成され、各ボックスには 2 個の Broadcom Jericho2C+ ASIC が搭載され、xPU 向けに 32 ポートの 400GE を、スパイン向けに 40 ポートの 400G を提供します。スパインレイヤーには、同じ 2RU フォーム・ファクターの NCF ホワイトボックス 20 台で構成され、1 台あたり 2 個の Broadcom Ramon ASIC を活用して、システムあたり合計 48 ポートの 400G を提供します。NCP のリーフノードはネイティブのオーバープロビジョニングを提供します。各リーフノードは 20 台のスパイン NCF に接続され、約 25% の冗長性を実現しています。ファブリックは、最大3台の NCF が故障しても、ほぼ 100% のスループットが維持できます。ByteDance 社の検証結果によると、さらに NCF が故障した場合には性能がリニアに低下していきます。
分散管理または集中管理
スケジュールドファブリックは、集中管理または分散管理することができます。集中管理の場合、コントローラ(1+1 プロテクション用のセカンダリコントローラを含む)が NCP と NCF をオーケストレーションし、専用サーバ上でプロトコルを実行します。ByteDanceは、画期的な DriveNets ネットワークオペレーティングシステム (DNOS) に基づく分散型のアプローチを選択しました。これは、各ノードが最小限の運用変更で、独立してプロトコルを実行する非スケジュールドファブリックの管理に似ています。このアプローチは、ByteDance の既存のオーケストレーションシステムとシームレスに統合されました。
電力効率
NCP と NCF のホワイトボックスは電力効率が非常に優れています。NCP と NCF は、28.8 T と 19.2 T のスイッチング容量を持ちますが、トランシーバーなしの標準的な消費電力は、それぞれ 667W と 377W です。この為、柔軟な物理的配置が可能です。データセンターの電力と熱容量に応じて、NCP を xPU サーバーと同じラックに配置することも、NCF と一緒にネットワークラックに配置することもできます。このような柔軟性により、ByteDance は NCP と NCF をデータセンター内で最適な構成で配置できました。
実証済みのソリューション
この投稿の時点で 2 ヶ月間オンラインになっているこのクラスターは、様々なアプリケーションからの推論トラフィックとトレーニングトラフィックを処理しています。ByteDance の既存の運用ツールキットは、非スケジュールドファブリック用に設計されていましたが、このクラスターに簡単に移植することができました。クラスターは、期待通り優れた性能を発揮し、スムーズなユーザエクスペリエンスを提供しています。
そして、これはほんの始まりに過ぎません。