スケジュール・ファブリックAIバックプレーンは、クラスター内の全てのGPUを輻輳を発生させずに1hopで接続可能な、様々な規模の論理シャーシとして機能します。予測可能でロスレスな接続性と、超高速(マイクロ秒レベル)の障害回復を大規模に提供します。その結果、大規模GPUクラスターにおけるAIワークロードのジョブ完了時間(JCT)を10%以上改善することが実証されています。
この記事では、ドライブネッツ NC-AIの機能を説明し、8,000 個のGPUを各々400Gbpsイーサネットで接続した8,000 GPUクラスタのハイレベル・リファレンス・デザインを提案します。このデザインは、ネットワーク・セグメンテーション、ハイパフォーマンス・ファブリック、スケーラブルなトポロジーを探求し、大規模のユニークな要求に最適化されています。
この高性能GPUクラスタは、ドライブネッツ NC-AIの機能を活用し、AIアプリケーションにおける最適なパフォーマンスとスケーラビリティのために設計された2層のリーフ・スパイン・ネットワーク・トポロジーを利用しています。
リーフ層はBroadcom Jericho3-AIプロセッサを搭載したドライブネッツ NCP5-AIリーフ・スイッチで構成され、スパイン層はデュアルBroadcom Ramon3プロセッサを搭載したドライブネッツ NCF2-AIスパインスイッチで構成されています。NCP5-AIリーフスイッチは、サーバラック内のGPU間の効率的な通信を保証し、高性能Broadcom Ramon3プロセッサを搭載したNCF2-AIスパインスイッチは、クラスタ全体のトラフィック・ルーティングを促進します。
リーフ層:各NCP5-AIスイッチは複数のGPUサーバーに直接接続する。これらのスイッチの容量は30.4Tbpsです。各スイッチは、800Gbpsのポートを18個または400Gbpsのポートを36個保有位、GPU接続ニーズに柔軟に対応します。NCP5-AIは、スパインレイヤーへの広帯域アップリンク接続用に20x800Gセルスイッチングポートを採用しています。またこれらの800Gポートは、400Gの40インターフェイスに分割することができます。
スパイン層:これらのNCF2-AIスイッチは、効率的なロードバランシングのためのセルスイッチ技術を使用して、リーフスイッチ間のトラフィックルーティングを処理します。NCF2-AIは128個の800Gbps セルスイッチングポートで102.4Tbpsの大容量を提供します。リーフ層と同様に、これらのポートは400Gインターフェイスにブレイクアウトできます。このブレイクアウト機能により、スパインの基数が増加し、最大256のリーフ・ノードの接続が可能になります。800Gをフル活用することで、この設計はクラスタ内で最大32KのGPU接続をサポートします。
このリファレンス・デザインは、ドライブネッツ NC-AIとNCP5-AIおよびNCF2-AIスイッチのブレークアウト機能により、高度にスケーラブルなネットワークを実現します。このネットワークは、基本構成では最大4,608個のGPUに対して800Gbpsの接続を提供できます。しかし、リーフスイッチの400Gブレークアウトを活用することで、最大8,192個のGPUを接続することができます。さらに、スパインを多階層にすることにより、最大32K個GPUに800Gで接続可能なネットワークを実現できます。
以下にドライブネッツ NC-AI NOSのスケーラビリティとNCP5-AIリーフスイッチのブレイクアウト機能を活用して、各々400Gbps接続を備えた8,192個のGPUをサポートする高性能GPUクラスターを構築する方法について詳しく説明します。
ネットワークの構成
総アップリンク容量:リーフスイッチの数(256)とリーフスイッチあたりのファブリックポート数(36)を掛け合わせて、総アップリンク容量を計算します:256リーフ * 36ポート/リーフ = 9,216アップリンクポート(400Gbps)。
スパインの数:このアップリンクトラフィックを処理するには、36台のスパインスイッチが必要です。この計算は、アップリンクポートの総数(9,216)を、1つのスパインが1つのリーフからサポートできる接続数(スパインあたり256×400Gbpsブレイクアウトポート)で割ることで導き出されます。
データセンターにおけるGPUクラスターの導入はさまざまな設計が可能ですが、消費電力やラックサイズといった重要な要素が重要な役割を果たします。このリファレンス・デザインでは、ラックあたりの最大消費電力を25kWと仮定し、標準的な48ユニットのラック・サイズを利用するという保守的なアプローチを採用しています。この構成は、NVIDIA HGX H100のような高性能GPUホストの一般的なプラクティスと一致しています。
ネットワーク・コンポーネント このソリューションは4つの主要なコンポーネントで構成されています:
このリファレンス・デザインは、ドライブネッツ NC-AIとNCP5-AIリーフ・スイッチのブレイクアウト機能を活用して、8,192 GPUクラスター用の拡張性の高いネットワーク基盤を構築しています。各GPUは、効率的な通信のための専用400Gbps接続を利用できます。256のリーフスイッチは36のスパイン・スイッチに接続し、クラスタ全体の冗長性と効率的なトラフィック・ルーティングを確保します。
このアーキテクチャは、総所有コスト(TCO)を低く抑えるための複数の方法を提供することができます。ひとつは、リーフ・スイッチとGPUサーバーの間に、オプティクスの代わりに銅線を使用する方法です。2つ目のより重要な方法は、エンド・ツー・エンドのジョブ完了時間を劇的に短縮することです。これは、そもそもドライブネッツ NC-AIソリューションを使用する理由の一部ですが、それについてはまた別の記事で話しましょう。