Blog イーサネットDDCスケジュールドAIファブリックが プロダクション環境に初導入

イーサネットDDCスケジュールドAIファブリックが プロダクション環境に初導入

人工知能(AI)と機械学習(ML)は 2022 年末から劇的な成長を遂げており、ハイパースケーラーが巨大な AIインフラを構築しています。TikTok と Douyin を運営する ByteDance(バイトダンス)も、複数のユースケースとアプリケーションに AI/ML を採用しています。

ByteDance  は現在、トレーニングと推論の目的で汎用グラフィックス プロセッシング ユニット (GPGPU) クラスターを構築しており、トレーニング クラスターはますます大規模になり、ネットワーク インフラストラクチャの新たな課題が生じています。

AI ネットワーク・インフラの主な要件 

ジョブ完了時間 (JCT) に関して最高のパフォーマンスを発揮する大規模な GPU クラスターの構築 

この要件の詳細は以下の通りです:

  • 高可用性、低遅延、最小限のジッター、ロスレス環境を提供するネットワークファブリックは、GPU が集団演算を実行しながらネットワークリソースを待つアイドルサイクルを最小化するために必要
  • わずかな遅延の増加となるのか、あるいはジョブのリスタートとなるのか、このような原因となり得る障害からのシームレスな回復
  • ノンブロッキング・バイセクションバンド幅、低遅延、パケットロスなど、あらゆる規模、さまざまなワークロードで一貫したパフォーマンスを発揮するファブリック 。 

ドライブネッツ ネットワーククラウドの紹介

ホワイトペーパーのダウンロードは

Nvidia は、AI ブームの最大の恩恵を受けている企業です。ほとんどの企業は Nvidia のソリューションに精通しており、同社の GPU と InfiniBand(インフィニバンド)ベースの接続ソリューションを使用しています。とはいえ、企業はベンダーロックインに伴う潜在的なリスクも理解しており、より多様なベンダーエコシステムを提唱しています。その結果、イーサネットのようなオープンで確立された接続プロトコルが好まれるようになっています。

イーサネットが InfiniBand に取って代わると予測されていますが、現在イーサネットには主にパフォーマンスに関する欠点があります。このパフォーマンスギャップを埋めるために、イーサネットの「拡張機能」がいくつか用意されています:

  • 独自のエンドポイントベースの輻輳制御メカニズム
  • オープンな Ultra Ethernet Consortium(UEC)は、イーサネットベースで、オープンで相互運用可能な高性能フル通信スタック・アーキテクチャを提供し、大規模な AI や HPC のネットワーク需要の増大に対応することを目的としています。
  • スケジュールドファブリックの代替案には、分離分散型シャーシ (DDC)、Cisco の分離型スケジュールドファブリック(DSF)、Arista の分散型イーサリンク・スイッチ (DES)などがあります。これらは、AI ワークロードのトレーニングに必要なスケールで最高のパフォーマンスを提供します。
ネットワークアーキテクチャに柔軟性とオープン性を持たせることにより、運用とサプライチェーンの柔軟性を実現 

この要件の詳細は以下の通りです:
  • あらゆる GPU とネットワーク・インタフェース・コントローラ/カード(NIC)をサポートし、ワークロードに依存せず、複数のアプリケーションとコンフィグレーションに対応するオープンなエコシステム
  • ベンダーロックにつながる InfiniBand のような独自技術ではなく、標準ベースのイーサネット技術
  • 超スケーラビリティ : 1つの AI クラスタで数千の 400/800G ポートをサポート 

DDC : スケジュールドファブリックソリューション 

DDC(Disaggregated Distributed Chassis, 分離分散型シャーシ)は、上記の要件をすべて満たすスケジュールドイーサネットファブリックソリューションです。 

スケジュールドファブリックには、以下のようなメリットがあります:

  • クラスター全体を 1 つのイーサネットノードとして機能させるセルベースのファブリック : シャーシに接続する場合と同様に、任意の GPU から任意の GPU へのシングルイーサネットホップをサポートしますが、シャーシの制限を超えてはるかに大規模な構成が可能です。
  • 物理的にはクロスアーキテクチャ :トップオブラック(ToR)スイッチがネットワーク・クラウド・パケット・フォワーダー(NCP)のホワイトボックスに該当し、ファブリックスイッチがネットワーク・クラウド・ファブリック(NCF)のホワイトボックスに該当します。
  • セル・スプレー・メカニズム :セルはイングレス NCP からすべての NCF へ均等に散布され、そしてイグレス NCP へ到達する為、完全に均等な負荷分散が保証され、輻輳も無ければ、エレファントフローの影響もありません。

First-Ethernet-DDC-Scheduled-AI-Fabric-Now-in-Production-IMAGE1-1536x931

  • パケットロスなし :イングレス NCP でイングレス NCP ごとの仮想出力キューイング(VOQ)とグラントベースのフロー制御
  • クラスターあたり 32K GPU(800 Gbps)をサポート
  • ロスレスで予測可能な接続性、低遅延、実質的にゼロのジッター
  • ナノ秒フェイルオーバー、ジョブリセットなし
  • ベンダーロックなし : ベンダーに依存しない GPU、DPU/NIC、ASIC、ワークロード
  • 多様な AI アプリケーションのサポート : ネットワーク要件が変化しても高いパフォーマンスを実現
  • イーサネットベース : 相互運用性を確保し、よく知られたプロトコル(イーサネット)を活用した容易な構築と運用
  • 実証済みのソリューション : DriveNets Network Cloud は既に世界最大のネットワークで利用 

ByteDanceの旅

ByteDance は DriveNets および Broadcom と提携し、過去数カ月にわたって DDC スケジュールドファブリックをテストし、良好な結果を得ました。これにより ByteDance は、2024 年 7 月に DDC スケジュールドファブリックを搭載した世界初の 1K GPGPU のプロダクションクラスターを展開することになりました。 

構成と規模 

この計算クラスターは、1,280 個の xPU と 640 個のエンドポイントで構成され、速度は 400GE です。2 層の DDC で構成され、クラスター全体でノンブロッキング・ドメインを形成します。リーフレイヤーは、コンパクトな 2RU の NCP ホワイトボックス 20 台で構成され、各ボックスには 2 個の Broadcom Jericho2C+ ASIC が搭載され、xPU 向けに 32 ポートの 400GE を、スパイン向けに 40 ポートの 400G を提供します。スパインレイヤーには、同じ 2RU フォーム・ファクターの NCF ホワイトボックス 20 台で構成され、1 台あたり 2 個の Broadcom Ramon ASIC を活用して、システムあたり合計 48 ポートの 400G を提供します。NCP のリーフノードはネイティブのオーバープロビジョニングを提供します。各リーフノードは 20 台のスパイン NCF に接続され、約 25% の冗長性を実現しています。ファブリックは、最大3台の NCF が故障しても、ほぼ 100% のスループットが維持できます。ByteDance 社の検証結果によると、さらに NCF が故障した場合には性能がリニアに低下していきます。 

分散管理または集中管理 

スケジュールドファブリックは、集中管理または分散管理することができます。集中管理の場合、コントローラ(1+1 プロテクション用のセカンダリコントローラを含む)が NCP と NCF をオーケストレーションし、専用サーバ上でプロトコルを実行します。ByteDanceは、画期的な DriveNets ネットワークオペレーティングシステム (DNOS) に基づく分散型のアプローチを選択しました。これは、各ノードが最小限の運用変更で、独立してプロトコルを実行する非スケジュールドファブリックの管理に似ています。このアプローチは、ByteDance の既存のオーケストレーションシステムとシームレスに統合されました。 

電力効率 

NCP と NCF のホワイトボックスは電力効率が非常に優れています。NCP と NCF は、28.8 T と 19.2 T のスイッチング容量を持ちますが、トランシーバーなしの標準的な消費電力は、それぞれ 667W と 377W です。この為、柔軟な物理的配置が可能です。データセンターの電力と熱容量に応じて、NCP を xPU サーバーと同じラックに配置することも、NCF と一緒にネットワークラックに配置することもできます。このような柔軟性により、ByteDance は NCP と NCF をデータセンター内で最適な構成で配置できました。 

実証済みのソリューション 

この投稿の時点で 2 ヶ月間オンラインになっているこのクラスターは、様々なアプリケーションからの推論トラフィックとトレーニングトラフィックを処理しています。ByteDance の既存の運用ツールキットは、非スケジュールドファブリック用に設計されていましたが、このクラスターに簡単に移植することができました。クラスターは、期待通り優れた性能を発揮し、スムーズなユーザエクスペリエンスを提供しています。 

そして、これはほんの始まりに過ぎません。

+

Loram ipsum 1

Loram ipsum 2

Download Heavy Reading White Paper

Download STL Partners Report

Download DriveNets Multiservice White Paper

Loram ipsum 6

Loram ipsum 7

Loram ipsum 8

Loram ipsum 9