イーサネットDDCスケジュールドAIファブリックがプロダクション環境に初導入

Written by Dudy Cohen | Oct 1, 2024 5:15:00 AM

人工知能（AI）と機械学習（ML）は 2022 年末から劇的な成長を遂げており、ハイパースケーラーが巨大な AIインフラを構築しています。TikTok と Douyin を運営する ByteDance（バイトダンス）も、複数のユースケースとアプリケーションに AI/ML を採用しています。

ByteDance は現在、トレーニングと推論の目的で汎用グラフィックスプロセッシングユニット (GPGPU) クラスターを構築しており、トレーニングクラスターはますます大規模になり、ネットワークインフラストラクチャの新たな課題が生じています。

AI ネットワーク・インフラの主な要件

ジョブ完了時間 (JCT) に関して最高のパフォーマンスを発揮する大規模な GPU クラスターの構築

この要件の詳細は以下の通りです：

高可用性、低遅延、最小限のジッター、ロスレス環境を提供するネットワークファブリックは、GPU が集団演算を実行しながらネットワークリソースを待つアイドルサイクルを最小化するために必要
わずかな遅延の増加となるのか、あるいはジョブのリスタートとなるのか、このような原因となり得る障害からのシームレスな回復
ノンブロッキング・バイセクションバンド幅、低遅延、パケットロスなど、あらゆる規模、さまざまなワークロードで一貫したパフォーマンスを発揮するファブリック。

ドライブネッツネットワーククラウドの紹介

Nvidia は、AI ブームの最大の恩恵を受けている企業です。ほとんどの企業は Nvidia のソリューションに精通しており、同社の GPU と InfiniBand（インフィニバンド）ベースの接続ソリューションを使用しています。とはいえ、企業はベンダーロックインに伴う潜在的なリスクも理解しており、より多様なベンダーエコシステムを提唱しています。その結果、イーサネットのようなオープンで確立された接続プロトコルが好まれるようになっています。

イーサネットが InfiniBand に取って代わると予測されていますが、現在イーサネットには主にパフォーマンスに関する欠点があります。このパフォーマンスギャップを埋めるために、イーサネットの「拡張機能」がいくつか用意されています：

独自のエンドポイントベースの輻輳制御メカニズム
オープンな Ultra Ethernet Consortium（UEC）は、イーサネットベースで、オープンで相互運用可能な高性能フル通信スタック・アーキテクチャを提供し、大規模な AI や HPC のネットワーク需要の増大に対応することを目的としています。
スケジュールドファブリックの代替案には、分離分散型シャーシ (DDC)、Cisco の分離型スケジュールドファブリック(DSF)、Arista の分散型イーサリンク・スイッチ (DES)などがあります。これらは、AI ワークロードのトレーニングに必要なスケールで最高のパフォーマンスを提供します。

ネットワークアーキテクチャに柔軟性とオープン性を持たせることにより、運用とサプライチェーンの柔軟性を実現

この要件の詳細は以下の通りです：

あらゆる GPU とネットワーク・インタフェース・コントローラ/カード（NIC）をサポートし、ワークロードに依存せず、複数のアプリケーションとコンフィグレーションに対応するオープンなエコシステム
ベンダーロックにつながる InfiniBand のような独自技術ではなく、標準ベースのイーサネット技術
超スケーラビリティ： 1つの AI クラスタで数千の 400/800G ポートをサポート

DDC ：スケジュールドファブリックソリューション

DDC（Disaggregated Distributed Chassis, 分離分散型シャーシ）は、上記の要件をすべて満たすスケジュールドイーサネットファブリックソリューションです。

スケジュールドファブリックには、以下のようなメリットがあります：

クラスター全体を 1 つのイーサネットノードとして機能させるセルベースのファブリック：シャーシに接続する場合と同様に、任意の GPU から任意の GPU へのシングルイーサネットホップをサポートしますが、シャーシの制限を超えてはるかに大規模な構成が可能です。
物理的にはクロスアーキテクチャ：トップオブラック（ToR）スイッチがネットワーク・クラウド・パケット・フォワーダー（NCP）のホワイトボックスに該当し、ファブリックスイッチがネットワーク・クラウド・ファブリック（NCF）のホワイトボックスに該当します。
セル・スプレー・メカニズム：セルはイングレス NCP からすべての NCF へ均等に散布され、そしてイグレス NCP へ到達する為、完全に均等な負荷分散が保証され、輻輳も無ければ、エレファントフローの影響もありません。

パケットロスなし：イングレス NCP でイングレス NCP ごとの仮想出力キューイング（VOQ）とグラントベースのフロー制御
クラスターあたり 32K GPU（800 Gbps）をサポート
ロスレスで予測可能な接続性、低遅延、実質的にゼロのジッター
ナノ秒フェイルオーバー、ジョブリセットなし
ベンダーロックなし：ベンダーに依存しない GPU、DPU/NIC、ASIC、ワークロード
多様な AI アプリケーションのサポート：ネットワーク要件が変化しても高いパフォーマンスを実現
イーサネットベース：相互運用性を確保し、よく知られたプロトコル（イーサネット）を活用した容易な構築と運用
実証済みのソリューション： DriveNets Network Cloud は既に世界最大のネットワークで利用

ByteDanceの旅

ByteDance は DriveNets および Broadcom と提携し、過去数カ月にわたって DDC スケジュールドファブリックをテストし、良好な結果を得ました。これにより ByteDance は、2024 年 7 月に DDC スケジュールドファブリックを搭載した世界初の 1K GPGPU のプロダクションクラスターを展開することになりました。

構成と規模

この計算クラスターは、1,280 個の xPU と 640 個のエンドポイントで構成され、速度は 400GE です。2 層の DDC で構成され、クラスター全体でノンブロッキング・ドメインを形成します。リーフレイヤーは、コンパクトな 2RU の NCP ホワイトボックス 20 台で構成され、各ボックスには 2 個の Broadcom Jericho2C+ ASIC が搭載され、xPU 向けに 32 ポートの 400GE を、スパイン向けに 40 ポートの 400G を提供します。スパインレイヤーには、同じ 2RU フォーム・ファクターの NCF ホワイトボックス 20 台で構成され、1 台あたり 2 個の Broadcom Ramon ASIC を活用して、システムあたり合計 48 ポートの 400G を提供します。NCP のリーフノードはネイティブのオーバープロビジョニングを提供します。各リーフノードは 20 台のスパイン NCF に接続され、約 25％の冗長性を実現しています。ファブリックは、最大3台の NCF が故障しても、ほぼ 100% のスループットが維持できます。ByteDance 社の検証結果によると、さらに NCF が故障した場合には性能がリニアに低下していきます。

分散管理または集中管理

スケジュールドファブリックは、集中管理または分散管理することができます。集中管理の場合、コントローラ（1+1 プロテクション用のセカンダリコントローラを含む）が NCP と NCF をオーケストレーションし、専用サーバ上でプロトコルを実行します。ByteDanceは、画期的な DriveNets ネットワークオペレーティングシステム (DNOS) に基づく分散型のアプローチを選択しました。これは、各ノードが最小限の運用変更で、独立してプロトコルを実行する非スケジュールドファブリックの管理に似ています。このアプローチは、ByteDance の既存のオーケストレーションシステムとシームレスに統合されました。

電力効率

NCP と NCF のホワイトボックスは電力効率が非常に優れています。NCP と NCF は、28.8 T と 19.2 T のスイッチング容量を持ちますが、トランシーバーなしの標準的な消費電力は、それぞれ 667W と 377W です。この為、柔軟な物理的配置が可能です。データセンターの電力と熱容量に応じて、NCP を xPU サーバーと同じラックに配置することも、NCF と一緒にネットワークラックに配置することもできます。このような柔軟性により、ByteDance は NCP と NCF をデータセンター内で最適な構成で配置できました。

実証済みのソリューション

この投稿の時点で 2 ヶ月間オンラインになっているこのクラスターは、様々なアプリケーションからの推論トラフィックとトレーニングトラフィックを処理しています。ByteDance の既存の運用ツールキットは、非スケジュールドファブリック用に設計されていましたが、このクラスターに簡単に移植することができました。クラスターは、期待通り優れた性能を発揮し、スムーズなユーザエクスペリエンスを提供しています。

そして、これはほんの始まりに過ぎません。

View full post

イーサネットDDCスケジュールドAIファブリックが プロダクション環境に初導入

AI ネットワーク・インフラの主な要件

DDC ： スケジュールドファブリックソリューション

ByteDanceの旅

イーサネットDDCスケジュールドAIファブリックがプロダクション環境に初導入

DDC ：スケジュールドファブリックソリューション