Blog

最速の AI クラスター展開が 業界の新たな要件に

Written by Shai Haim | May 19, 2025 5:48:53 AM
新たなクラウド・プロバイダーの形態 — いわゆる「ネオクラウド」プロバイダーが登場しました。CoreWeave、Crusoe、Lambda などの企業は、GPU 計算能力のレンタルに特化しています。 ウォール街はこれに注目し、これらの企業が巨大な GPU ファームの構築と、人工知能(AI)GPU コンピューティングの主要プラットフォームとしての地位確立を競う中、数十億ドルの投資を行っています。

しかし、これはネオクラウド・プロバイダーに限った話ではありません。あらゆる企業や AI 開発者が、競合他社に先駆けて AI 機能を展開するために熾烈な競争を繰り広げています。こうした中、AI GPU クラスターの迅速な展開は極めて重要な要件となっています。 

ハードウェアの調達も課題の一つですが、ネットワークの構築こそがしばしば展開の遅延要因となります。複雑な設定や絶え間ない調整が、ネットワークの展開に遅延をもたらし、プロセスを困難にしてしまうのです。

高性能 AI クラスターの実現

では、高性能 AI クラスターを最速の時間で展開するにはどうすればよいのでしょうか。その答えは、AI ネットワーキングにおける3つの主要な課題の理解と解決にあります。

  • 負荷分散:数千の GPU にトラフィックを均等に分散することは、利用率とクラスターのパフォーマンスを最大化するために不可欠です。ロードバランシングが不十分だと、一部の GPU が過負荷になる一方で他の GPU がアイドル状態になり、貴重なリソースが無駄になります。AI ワークロードの動的な特性を考慮した最適なロードバランシングを実現することは困難ですが、適切に実施すれば、事前に輻輳を軽減し、効率とパフォーマンスを向上させることができます。
  • 輻輳(ふくそう):AI ワークロードは、複雑なトラフィックパターンを持つ大規模で突発的なデータフローを生成するため、管理上の重大な課題を引き起こします。一般的な例として、複数の GPU が同時に単一の宛先にデータを送る(インキャスト)ケースでは、ネットワークスイッチが過負荷になることで、遅延が発生し GPU の効率が低下します。輻輳を抑制することで、スムーズなデータフローとクラスター性能の最大化が実現します。
  • トラフィック分離:マルチテナント環境や、ストレージとコンピューティングのトラフィックが同じファブリックを共有する場合、トラフィックの分離は不可欠です。これにより、あるトラフィックが他のトラフィックのパフォーマンスに影響を与えることを防ぎます。例えば、ノイジー・ネイバー(”騒がしい隣人”)問題などが挙げられます。効果的なトラフィック分離を実現するには、ネットワークリソースに対する細かい粒度の制御と高度な品質保証(QoS)メカニズムが必要です。

これらは、AI ワークロードの構築者や運用者が直面する唯一の課題ではありませんが、特にマルチテナント環境でよく見られる、終わりのないチューニングにつながる時間のかかる重要な問題です。

業界で知られる AI インフラの選択肢

AI 基盤の構築においては、ネオクラウド・プロバイダーやその他の企業にはいくつかの選択肢があります。 

従来型 Ethernet 

イーサネットの親しみやすさとコスト効率は、多くの企業やネオクラウドにとって魅力的です。しかし、標準的な CLOS ネットワークで使用される基本的な輻輳制御メカニズム(例:ECN、PFC)やオーバーレイ・ルーティングプロトコル(例:OSPF や BGP による ECMP)は、AI クラスターの動的な要件に応えられません。強力なシャーシベースのソリューションでさえ、現代の AI 基盤が要求する大規模な GPU 数に対応するためのスケーラビリティを欠いています。 

高度な独自ソリューション 

AI の課題は新しいものではありません。HPC 市場は長年、同様の課題に直面してきました。NVIDIA の InfiniBand は従来、卓越した性能を提供し、主流のソリューションでした。しかし、標準的なイーサネットのサポートが非対応で、また、マルチテナント機能に制限があるため、最適な性能を実現するためには、専門のスキルを持ったチームによる複雑なチューニングと設定が継続的に求められます。 

これらの制限を認識し、NVIDIA は Spectrum-X を推進しています。Spectrum-X はイーサネット対応、トラフィック分離、ロードバランシング、輻輳制御を可能にし、高いパフォーマンスを提供します。ただし、Spectrum-X はトラフィック分離をオーバーレイECMP に依存し、RoCEv2 を採用しているため、依然として複雑な設定が不可欠です。 

Ultra Ethernet Consortium (UEC) は、RoCEv2 ネットワーク・プロトコルの課題を解決し、導入を簡素化することを目的としていますが、そのソリューションは現時点ではまだ利用可能になっていません。 

Scheduled Fabric (スケジュール型ファブリック) 

ネオクラウド・プロバイダーや大規模 AI クラスターを構築するその他の企業は、分離分散型シャーシ(DDC)スケジュールド・ファブリックを備えた、ロスレスで予測可能なイーサネット・ソリューションをすでに利用できます。このソリューションは、以下の機能により、前述の 3 つの課題に対し効果的に機能します。

  • セル・スプレー (Cell Spray):ファブリック全体にトラフィックを均等に分散しながら負荷分散を行い、ボトルネックを防止し、すべての GPU が必要なデータにアクセスできるようにします。
  • エンドツーエンド仮想出力キューイング(E2E VOQ):輻輳を抑制しつつ、他のトラフィックへの干渉を防ぐための分離を実現します。

E2E VOQ と Cell Spray の組み合わせにより、予測可能でロスレスな接続を備えたプラグ・アンド・プレイのネットワーク環境が実現します。スケジューリングされたファブリックは、通常、他のソリューションで必要となる複雑なチューニングや継続的な設定を必要とせずに、セルスプレーと E2E VOQ をネイティブに利用します。 

DriveNets NC-AI ― チューニング不要な AI ネットワーク基盤 

新たな AI ブームにより、ネオクラウド・プロバイダーをはじめとする企業は、AI クラスタの迅速な導入競争に突入しています。GPU や光ファイバーの可用性に関する制約を克服した今、これらの組織は、大規模な GPU クラスタを相互接続するには、複雑かつ高度なネットワーク・ソリューションが必要であり、継続的なチューニングと設定が求められることを認識しています。従来のソリューションは必要なパフォーマンスを提供できますが、熟練したチームによる手間のかかるチューニングが依然として求められます。 

一方、スケジュールド・ファブリックは、必要なソリューションを適切なタイミングで提供します。DDC のスケジュールド・ファブリックを基盤とする DriveNets Network Cloud-AI は、Cell Spray と E2E VOQ を活用し、複雑なチューニングや追加ハードウェアなしで、高性能な AI ネットワーク・ファブリックをすぐに利用可能です。 

DriveNets Network Cloud-AI は、AI クラスターの展開を最速で実現し、展開に要する時間を数週間から数日に短縮します。さらに、Tier-1 のハイパースケール・ネットワークでの実稼働環境で実証されたように、イーサネットと比較してジョブ完了時間(JCT)性能を最大 30% 向上させます 。