しかし、これはネオクラウド・プロバイダーに限った話ではありません。あらゆる企業や AI 開発者が、競合他社に先駆けて AI 機能を展開するために熾烈な競争を繰り広げています。こうした中、AI GPU クラスターの迅速な展開は極めて重要な要件となっています。
ハードウェアの調達も課題の一つですが、ネットワークの構築こそがしばしば展開の遅延要因となります。複雑な設定や絶え間ない調整が、ネットワークの展開に遅延をもたらし、プロセスを困難にしてしまうのです。
では、高性能 AI クラスターを最速の時間で展開するにはどうすればよいのでしょうか。その答えは、AI ネットワーキングにおける3つの主要な課題の理解と解決にあります。
これらは、AI ワークロードの構築者や運用者が直面する唯一の課題ではありませんが、特にマルチテナント環境でよく見られる、終わりのないチューニングにつながる時間のかかる重要な問題です。
AI 基盤の構築においては、ネオクラウド・プロバイダーやその他の企業にはいくつかの選択肢があります。
従来型 Ethernet
イーサネットの親しみやすさとコスト効率は、多くの企業やネオクラウドにとって魅力的です。しかし、標準的な CLOS ネットワークで使用される基本的な輻輳制御メカニズム(例:ECN、PFC)やオーバーレイ・ルーティングプロトコル(例:OSPF や BGP による ECMP)は、AI クラスターの動的な要件に応えられません。強力なシャーシベースのソリューションでさえ、現代の AI 基盤が要求する大規模な GPU 数に対応するためのスケーラビリティを欠いています。
高度な独自ソリューション
AI の課題は新しいものではありません。HPC 市場は長年、同様の課題に直面してきました。NVIDIA の InfiniBand は従来、卓越した性能を提供し、主流のソリューションでした。しかし、標準的なイーサネットのサポートが非対応で、また、マルチテナント機能に制限があるため、最適な性能を実現するためには、専門のスキルを持ったチームによる複雑なチューニングと設定が継続的に求められます。
これらの制限を認識し、NVIDIA は Spectrum-X を推進しています。Spectrum-X はイーサネット対応、トラフィック分離、ロードバランシング、輻輳制御を可能にし、高いパフォーマンスを提供します。ただし、Spectrum-X はトラフィック分離をオーバーレイECMP に依存し、RoCEv2 を採用しているため、依然として複雑な設定が不可欠です。
Ultra Ethernet Consortium (UEC) は、RoCEv2 ネットワーク・プロトコルの課題を解決し、導入を簡素化することを目的としていますが、そのソリューションは現時点ではまだ利用可能になっていません。
Scheduled Fabric (スケジュール型ファブリック)
ネオクラウド・プロバイダーや大規模 AI クラスターを構築するその他の企業は、分離分散型シャーシ(DDC)スケジュールド・ファブリックを備えた、ロスレスで予測可能なイーサネット・ソリューションをすでに利用できます。このソリューションは、以下の機能により、前述の 3 つの課題に対し効果的に機能します。
E2E VOQ と Cell Spray の組み合わせにより、予測可能でロスレスな接続を備えたプラグ・アンド・プレイのネットワーク環境が実現します。スケジューリングされたファブリックは、通常、他のソリューションで必要となる複雑なチューニングや継続的な設定を必要とせずに、セルスプレーと E2E VOQ をネイティブに利用します。
DriveNets NC-AI ― チューニング不要な AI ネットワーク基盤
新たな AI ブームにより、ネオクラウド・プロバイダーをはじめとする企業は、AI クラスタの迅速な導入競争に突入しています。GPU や光ファイバーの可用性に関する制約を克服した今、これらの組織は、大規模な GPU クラスタを相互接続するには、複雑かつ高度なネットワーク・ソリューションが必要であり、継続的なチューニングと設定が求められることを認識しています。従来のソリューションは必要なパフォーマンスを提供できますが、熟練したチームによる手間のかかるチューニングが依然として求められます。
一方、スケジュールド・ファブリックは、必要なソリューションを適切なタイミングで提供します。DDC のスケジュールド・ファブリックを基盤とする DriveNets Network Cloud-AI は、Cell Spray と E2E VOQ を活用し、複雑なチューニングや追加ハードウェアなしで、高性能な AI ネットワーク・ファブリックをすぐに利用可能です。
DriveNets Network Cloud-AI は、AI クラスターの展開を最速で実現し、展開に要する時間を数週間から数日に短縮します。さらに、Tier-1 のハイパースケール・ネットワークでの実稼働環境で実証されたように、イーサネットと比較してジョブ完了時間(JCT)性能を最大 30% 向上させます 。