
スケジュール・ファブリックAIバックプレーンは、クラスター内の全てのGPUを輻輳を発生させずに1hopで接続可能な、様々な規模の論理シャーシとして機能します。予測可能でロスレスな接続性と、超高速(マイクロ秒レベル)の障害回復を大規模に提供します。その結果、大規模GPUクラスターにおけるAIワークロードのジョブ完了時間(JCT)を10%以上改善することが実証されています。
この記事では、ドライブネッツ NC-AIの機能を説明し、8,000 個のGPUを各々400Gbpsイーサネットで接続した8,000 GPUクラスタのハイレベル・リファレンス・デザインを提案します。このデザインは、ネットワーク・セグメンテーション、ハイパフォーマンス・ファブリック、スケーラブルなトポロジーを探求し、大規模のユニークな要求に最適化されています。
GPUクラスター・ネットワーク・アーキテクチャ
この高性能GPUクラスタは、ドライブネッツ NC-AIの機能を活用し、AIアプリケーションにおける最適なパフォーマンスとスケーラビリティのために設計された2層のリーフ・スパイン・ネットワーク・トポロジーを利用しています。
リーフ層はBroadcom Jericho3-AIプロセッサを搭載したドライブネッツ NCP5-AIリーフ・スイッチで構成され、スパイン層はデュアルBroadcom Ramon3プロセッサを搭載したドライブネッツ NCF2-AIスパインスイッチで構成されています。NCP5-AIリーフスイッチは、サーバラック内のGPU間の効率的な通信を保証し、高性能Broadcom Ramon3プロセッサを搭載したNCF2-AIスパインスイッチは、クラスタ全体のトラフィック・ルーティングを促進します。
リーフ層:各NCP5-AIスイッチは複数のGPUサーバーに直接接続する。これらのスイッチの容量は30.4Tbpsです。各スイッチは、800Gbpsのポートを18個または400Gbpsのポートを36個保有位、GPU接続ニーズに柔軟に対応します。NCP5-AIは、スパインレイヤーへの広帯域アップリンク接続用に20x800Gセルスイッチングポートを採用しています。またこれらの800Gポートは、400Gの40インターフェイスに分割することができます。
スパイン層:これらのNCF2-AIスイッチは、効率的なロードバランシングのためのセルスイッチ技術を使用して、リーフスイッチ間のトラフィックルーティングを処理します。NCF2-AIは128個の800Gbps セルスイッチングポートで102.4Tbpsの大容量を提供します。リーフ層と同様に、これらのポートは400Gインターフェイスにブレイクアウトできます。このブレイクアウト機能により、スパインの基数が増加し、最大256のリーフ・ノードの接続が可能になります。800Gをフル活用することで、この設計はクラスタ内で最大32KのGPU接続をサポートします。
ドライブネッツ NC-AIでの8,192 GPUクラスターの構築
このリファレンス・デザインは、ドライブネッツ NC-AIとNCP5-AIおよびNCF2-AIスイッチのブレークアウト機能により、高度にスケーラブルなネットワークを実現します。このネットワークは、基本構成では最大4,608個のGPUに対して800Gbpsの接続を提供できます。しかし、リーフスイッチの400Gブレークアウトを活用することで、最大8,192個のGPUを接続することができます。さらに、スパインを多階層にすることにより、最大32K個GPUに800Gで接続可能なネットワークを実現できます。
以下にドライブネッツ NC-AI NOSのスケーラビリティとNCP5-AIリーフスイッチのブレイクアウト機能を活用して、各々400Gbps接続を備えた8,192個のGPUをサポートする高性能GPUクラスターを構築する方法について詳しく説明します。
ネットワークの構成
- リーフ・スイッチ:このデザインでは、AIワークロード用に特別に設計された30.4Tbpsの容量を持つ256台のDriveNets NCP5-AIリーフスイッチを使用。
- リーフスイッチの構成:
- GPU接続:各NCP5-AIスイッチは、複数のGPUに直接接続します。GPU接続を最大化(800Gbpsに)するため、各リーフスイッチでは利用可能な18ポートのうち16ポートを使用しています。これらのポートは、ドライブネッツのブレイクアウト機能を使用して32x400Gポートに分割可能で、この構成により各リーフスイッチは、専用の400Gbps接続で32個のGPUをサポートすることができます。
- ファブリック接続:GPU トラフィックの転送のための32 個のポートに加え、冗長性(N+1)と Broadcom の内部セル制御用に4 ポートを追加した、36 個のファブリックポートを使用します。
- スパイン・スイッチ:必要なスパイン・スイッチの数は、リーフ・スイッチからのアップリンク容量の合計によって決まります。
スパインスイッチの計算
総アップリンク容量:リーフスイッチの数(256)とリーフスイッチあたりのファブリックポート数(36)を掛け合わせて、総アップリンク容量を計算します:256リーフ * 36ポート/リーフ = 9,216アップリンクポート(400Gbps)。
スパインの数:このアップリンクトラフィックを処理するには、36台のスパインスイッチが必要です。この計算は、アップリンクポートの総数(9,216)を、1つのスパインが1つのリーフからサポートできる接続数(スパインあたり256×400Gbpsブレイクアウトポート)で割ることで導き出されます。
ラック内配置とデータセンターのレイアウト
データセンターにおけるGPUクラスターの導入はさまざまな設計が可能ですが、消費電力やラックサイズといった重要な要素が重要な役割を果たします。このリファレンス・デザインでは、ラックあたりの最大消費電力を25kWと仮定し、標準的な48ユニットのラック・サイズを利用するという保守的なアプローチを採用しています。この構成は、NVIDIA HGX H100のような高性能GPUホストの一般的なプラクティスと一致しています。
ネットワーク・コンポーネント このソリューションは4つの主要なコンポーネントで構成されています:
- コンピュート・ラック:これらのラックには、8個のEthernet対応GPUを搭載したGPUノードとリーフスイッチが収納されています。このリファレンス・デザインでは、 ラックあたり2つのGPUノードをサポートする構成を考えています。この仮定は、NVIDIA HGX H100のような高性能ホストが約11kWの電力を必要とする典型的なデータセンターの慣行と一致しています。ネットワークと管理スイッチを考慮すると、ラック全体の消費電力は22kWから25kWになります。各リーフが32x400G GPUをサポートするため、2つのコンピュートラックが1台のドライブネッツ NCP5-AIリーフスイッチに接続されることになる。
- スパインラック:スパインスイッチを収納するラックです。各スパインラックには6台のドライブネッツ NCF2-AIスパインスイッチを搭載できます。このデザインでは36台のスパインスイッチを使用するため、スパインラックは全部で6ラック必要となり、GPUノードとリーフスイッチを収容するすべてのコンピュートラックは、ネットワーク内の各スパインに接続する必要があるため、これらのラックは通常、データセンターの中央に配置されます。
- ホストNICからリーフへの接続性:ラック内およびラック間におけるGPUとリーフスイッチの接続には、光ファイバーの代わりにコスト効率の高いDACケーブルを使用できるため、電力とコストの節約につながります。この設計では、1つのNCP5-AIリーフに16x400Gのラック内接続と16x400Gの隣接ラックへの接続があります。
- リーフからスパインへの接続性:各コンピュートラックに設置されたリーフスイッチは、各スパインスイッチへ1x400Gのアップリンク(合計36本)を接続します。スパインスイッチは、各スパインラックに6台ずつ設置されているため、各コンピュートラックからスパインラックへの接続は6x400Gになります。
8,192GPUクラスタのための拡張性の高いネットワーク基盤の構築
このリファレンス・デザインは、ドライブネッツ NC-AIとNCP5-AIリーフ・スイッチのブレイクアウト機能を活用して、8,192 GPUクラスター用の拡張性の高いネットワーク基盤を構築しています。各GPUは、効率的な通信のための専用400Gbps接続を利用できます。256のリーフスイッチは36のスパイン・スイッチに接続し、クラスタ全体の冗長性と効率的なトラフィック・ルーティングを確保します。
このアーキテクチャは、総所有コスト(TCO)を低く抑えるための複数の方法を提供することができます。ひとつは、リーフ・スイッチとGPUサーバーの間に、オプティクスの代わりに銅線を使用する方法です。2つ目のより重要な方法は、エンド・ツー・エンドのジョブ完了時間を劇的に短縮することです。これは、そもそもドライブネッツ NC-AIソリューションを使用する理由の一部ですが、それについてはまた別の記事で話しましょう。