

NeoClouds(ネオ・クラウド)とその課題
- 限られた電力資源:大規模データセンター、特にGPUを搭載したデータセンターでは、膨大な電力とスペースが消費されます。コンピュート・パワーに対する需要が増加し続ける中、電力とスペースの制約が重要な課題となっています。
- AI グレードのパフォーマンスを備えたグローバルプレゼンス:クラウド・プロバイダーは本質的に大規模な地域にサービスを提供しており、顧客はリソースの特定の場所を知らないことがよくあります。単一のサービスが 2 つの異なるサイトのリソースを使用する場合、ネットワークの観点からは、これら 2 つの場所にある GPU は単一のワークロードとして機能する必要があります。NeoClouds のAI 駆動型アプリケーションにとって重要な課題は、分散したデータセンター間でワークロードを相互接続するだけでなく、ロスレス接続を維持することです。AI ワークロードには、GPU 間のロスレスで予測可能な接続を備えた高性能ネットワーキングが必要です。GPU が同じデータセンターに設置されている場合は比較的簡単ですが、データセンターが例えば 80km 離れている場合は、はるかに複雑になります。
NeoClouds がこれらの課題を乗り越えていくには、パフォーマンスを犠牲にすることなく、複数の拠点間で電力リソースをシームレスに共有・最適化する能力が不可欠です。適切なネットワークとインフラストラクチャソリューションは、AI ワークロードに求められる高いパフォーマンス基準を維持しながら、効果的な拡張を継続できるかどうかを左右します。
ロスレス DCI にディープバッファが重要な理由
データセンターの相互接続は目新しいものではありません。DCI(データセンター相互接続)は、クラウド環境において長年標準的なソリューションとなっています。しかしそこに、AI グレードのパフォーマンスを実現するという新たな課題が追加されました。これは、帯域幅だけでなく、予測可能な低レイテンシ、最小限のジッター、そして最も重要なロスレスパケット配信を保証することを意味します。わずかなパケットロスでさえ、AI の学習と推論の精度に大きな影響を与える可能性があります。
そこで ECN(明示的輻輳通知)とPFC(優先度ベースのフロー制御)の組み合わせが不可欠となります。PFC は最後の手段として機能し、輻輳がすでに発生している場合に作動するフロー制御の直接的な形態です。送信者に一時停止フレームを送信し、送信を一時的に停止するよう指示することで、さらなる劣化を防ぎます。しかし、PFC はすでに輻輳が発生してからしか作動しないため、よりプロアクティブなアプローチが必要となります。そこで ECN が重要な役割を果たします。ECN は、パケットロスが発生する前に送信ホストに送信レートを下げるよう信号を送ることで、輻輳の早期警告を行います。
ECN が最適に機能するためには、ハードウェアのディープ・バッファと組み合わせる必要があります。十分なバッファ容量がないと、ECN の伝搬時間が不十分となり、パケットロスやパフォーマンスの低下につながります。ディープ・バッファは、ECN が輻輳を効果的に管理するために必要な時間を提供し、望ましいロスレス接続を保証します。
ディープバッファーのホワイトボックスとシャローバッファーのホワイトボックス
ドライブネッツによる分散型 AI ワークロードのパフォーマンス
これを踏まえると、AI ワークロードを複数のリモートデータセンターに分散させようとする NeoClouds プロバイダーは、ディープバッファを組み込んだネットワーキング・インフラを構築する必要があります。これにより、GPU クラスタがかなりの距離にわたって分散している場合でも、ロスレス接続と予測可能なパフォーマンスが保証されます。
ドライブネッツの Network Cloud-AI は、ファブリックスケジュール型イーサネットソリューションを提供し、NVIDIA の既存のソリューションを凌駕する最速のジョブ完了時間(JCT)を実現します。クラスタ・ネットワーク内では、シャロー・バッファとディープ・バッファの Jericho3-AI の両方をサポートしています。これにより、AI ワークロードの構築者は、データセンター内の GPU 相互接続にシャローバッファ・ホワイトボックスを利用できる一方、分散データセンター間の AI クラスタの接続にはディープバッファ・ホワイトボックスを活用できます。これにより、10km、50km、80km の距離であっても、大規模AIワークロードのシームレスでロスレスな接続が保証されます。
ドライブネッツ Network Cloud-AI による AI ワークロードの相互接続
パフォーマンス劣化なしに大規模な AI ワークロードを分散
NeoClouds や企業は、複数のサイトにまたがる AI クラスタの相互接続を追求しています。この戦略的な動きは、特定の拠点を悩ませる電力とスペースの制約に直接対処するものです。大規模な AI ワークロードを分散させることで、利用可能な電力とスペースのリソースを最大限に活用することができます。
しかし、パフォーマンスを損なうことなくこれを実現するのは容易なことではありません。ドライブネッツの Network Cloud-AI はこの難題に立ち向かい、ディープ・バッファ機能を備えたファブリック・スケジューリング・イーサネット・ソリューションを提供します。これにより、最大 80km の距離が離れていても、相互接続された GPU 間で最高レベルのパフォーマンスが維持されます。
そして、NeoClouds にとってのこのプロセスの追加のメリットは、オープンで標準的なイーサネットをエンドツーエンドで統合されることです。
Related posts
ネットワーク・レイヤーの統合が ネットワーク・アーキテクチャを再構築する
OSI の 7 レイヤーモデルが導入されて以来、各レイヤーを別々に扱うのが常識となっています。実際、これが OSI モデルの目的でした。つまり、「通信にまつわる諸問題」を 7..