ByteDance は現在、トレーニングと推論の目的で汎用グラフィックス プロセッシング ユニット (GPGPU) クラスターを構築しており、トレーニング クラスターはますます大規模になり、ネットワーク インフラストラクチャの新たな課題が生じています。
AI ネットワーク・インフラの主な要件
ジョブ完了時間 (JCT) に関して最高のパフォーマンスを発揮する大規模な GPU クラスターの構築
この要件の詳細は以下の通りです:
- 高可用性、低遅延、最小限のジッター、ロスレス環境を提供するネットワークファブリックは、GPU が集団演算を実行しながらネットワークリソースを待つアイドルサイクルを最小化するために必要
- わずかな遅延の増加となるのか、あるいはジョブのリスタートとなるのか、このような原因となり得る障害からのシームレスな回復
- ノンブロッキング・バイセクションバンド幅、低遅延、パケットロスなど、あらゆる規模、さまざまなワークロードで一貫したパフォーマンスを発揮するファブリック 。
ドライブネッツ ネットワーククラウドの紹介
Nvidia は、AI ブームの最大の恩恵を受けている企業です。ほとんどの企業は Nvidia のソリューションに精通しており、同社の GPU と InfiniBand(インフィニバンド)ベースの接続ソリューションを使用しています。とはいえ、企業はベンダーロックインに伴う潜在的なリスクも理解しており、より多様なベンダーエコシステムを提唱しています。その結果、イーサネットのようなオープンで確立された接続プロトコルが好まれるようになっています。
イーサネットが InfiniBand に取って代わると予測されていますが、現在イーサネットには主にパフォーマンスに関する欠点があります。このパフォーマンスギャップを埋めるために、イーサネットの「拡張機能」がいくつか用意されています:
- 独自のエンドポイントベースの輻輳制御メカニズム
- オープンな Ultra Ethernet Consortium(UEC)は、イーサネットベースで、オープンで相互運用可能な高性能フル通信スタック・アーキテクチャを提供し、大規模な AI や HPC のネットワーク需要の増大に対応することを目的としています。
- スケジュールドファブリックの代替案には、分離分散型シャーシ (DDC)、Cisco の分離型スケジュールドファブリック(DSF)、Arista の分散型イーサリンク・スイッチ (DES)などがあります。これらは、AI ワークロードのトレーニングに必要なスケールで最高のパフォーマンスを提供します。
この要件の詳細は以下の通りです:
- あらゆる GPU とネットワーク・インタフェース・コントローラ/カード(NIC)をサポートし、ワークロードに依存せず、複数のアプリケーションとコンフィグレーションに対応するオープンなエコシステム
- ベンダーロックにつながる InfiniBand のような独自技術ではなく、標準ベースのイーサネット技術
- 超スケーラビリティ : 1つの AI クラスタで数千の 400/800G ポートをサポート
DDC : スケジュールドファブリックソリューション
DDC(Disaggregated Distributed Chassis, 分離分散型シャーシ)は、上記の要件をすべて満たすスケジュールドイーサネットファブリックソリューションです。
スケジュールドファブリックには、以下のようなメリットがあります:
- クラスター全体を 1 つのイーサネットノードとして機能させるセルベースのファブリック : シャーシに接続する場合と同様に、任意の GPU から任意の GPU へのシングルイーサネットホップをサポートしますが、シャーシの制限を超えてはるかに大規模な構成が可能です。
- 物理的にはクロスアーキテクチャ :トップオブラック(ToR)スイッチがネットワーク・クラウド・パケット・フォワーダー(NCP)のホワイトボックスに該当し、ファブリックスイッチがネットワーク・クラウド・ファブリック(NCF)のホワイトボックスに該当します。
- セル・スプレー・メカニズム :セルはイングレス NCP からすべての NCF へ均等に散布され、そしてイグレス NCP へ到達する為、完全に均等な負荷分散が保証され、輻輳も無ければ、エレファントフローの影響もありません。
- パケットロスなし :イングレス NCP でイングレス NCP ごとの仮想出力キューイング(VOQ)とグラントベースのフロー制御
- クラスターあたり 32K GPU(800 Gbps)をサポート
- ロスレスで予測可能な接続性、低遅延、実質的にゼロのジッター
- ナノ秒フェイルオーバー、ジョブリセットなし
- ベンダーロックなし : ベンダーに依存しない GPU、DPU/NIC、ASIC、ワークロード
- 多様な AI アプリケーションのサポート : ネットワーク要件が変化しても高いパフォーマンスを実現
- イーサネットベース : 相互運用性を確保し、よく知られたプロトコル(イーサネット)を活用した容易な構築と運用
- 実証済みのソリューション : DriveNets Network Cloud は既に世界最大のネットワークで利用
ByteDanceの旅
ByteDance は DriveNets および Broadcom と提携し、過去数カ月にわたって DDC スケジュールドファブリックをテストし、良好な結果を得ました。これにより ByteDance は、2024 年 7 月に DDC スケジュールドファブリックを搭載した世界初の 1K GPGPU のプロダクションクラスターを展開することになりました。
構成と規模
この計算クラスターは、1,280 個の xPU と 640 個のエンドポイントで構成され、速度は 400GE です。2 層の DDC で構成され、クラスター全体でノンブロッキング・ドメインを形成します。リーフレイヤーは、コンパクトな 2RU の NCP ホワイトボックス 20 台で構成され、各ボックスには 2 個の Broadcom Jericho2C+ ASIC が搭載され、xPU 向けに 32 ポートの 400GE を、スパイン向けに 40 ポートの 400G を提供します。スパインレイヤーには、同じ 2RU フォーム・ファクターの NCF ホワイトボックス 20 台で構成され、1 台あたり 2 個の Broadcom Ramon ASIC を活用して、システムあたり合計 48 ポートの 400G を提供します。NCP のリーフノードはネイティブのオーバープロビジョニングを提供します。各リーフノードは 20 台のスパイン NCF に接続され、約 25% の冗長性を実現しています。ファブリックは、最大3台の NCF が故障しても、ほぼ 100% のスループットが維持できます。ByteDance 社の検証結果によると、さらに NCF が故障した場合には性能がリニアに低下していきます。
分散管理または集中管理
スケジュールドファブリックは、集中管理または分散管理することができます。集中管理の場合、コントローラ(1+1 プロテクション用のセカンダリコントローラを含む)が NCP と NCF をオーケストレーションし、専用サーバ上でプロトコルを実行します。ByteDanceは、画期的な DriveNets ネットワークオペレーティングシステム (DNOS) に基づく分散型のアプローチを選択しました。これは、各ノードが最小限の運用変更で、独立してプロトコルを実行する非スケジュールドファブリックの管理に似ています。このアプローチは、ByteDance の既存のオーケストレーションシステムとシームレスに統合されました。
電力効率
NCP と NCF のホワイトボックスは電力効率が非常に優れています。NCP と NCF は、28.8 T と 19.2 T のスイッチング容量を持ちますが、トランシーバーなしの標準的な消費電力は、それぞれ 667W と 377W です。この為、柔軟な物理的配置が可能です。データセンターの電力と熱容量に応じて、NCP を xPU サーバーと同じラックに配置することも、NCF と一緒にネットワークラックに配置することもできます。このような柔軟性により、ByteDance は NCP と NCF をデータセンター内で最適な構成で配置できました。
実証済みのソリューション
この投稿の時点で 2 ヶ月間オンラインになっているこのクラスターは、様々なアプリケーションからの推論トラフィックとトレーニングトラフィックを処理しています。ByteDance の既存の運用ツールキットは、非スケジュールドファブリック用に設計されていましたが、このクラスターに簡単に移植することができました。クラスターは、期待通り優れた性能を発揮し、スムーズなユーザエクスペリエンスを提供しています。
そして、これはほんの始まりに過ぎません。
Related posts
適切なクラスターファブリックで エンタープライズAIを最適化
コムキャストが ドライブネッツ・ネットワーク・クラウドを 選んだ理由とは
今週のSCTE TechExpo24 において、コムキャストは、同社のネットワーク・アーキテクチャの大幅な変更を発表しました。コムキャストの新しい「Janus」プロジェクトは、クラウド技術と..
ネットワーク・レイヤーの統合が ネットワーク・アーキテクチャを再構築する
OSI の 7 レイヤーモデルが導入されて以来、各レイヤーを別々に扱うのが常識となっています。実際、これが OSI モデルの目的でした。つまり、「通信にまつわる諸問題」を 7..