Kubernetesが強化されたAIワークロード向けにマルチノードNVLinkを採用

Timothy Morano
2025/11/10 06:48

NVIDIAのGB200 NVL72は、Kubernetes上での効率的なAIワークロード管理のためのComputeDomainsを導入し、ノード間での安全な高帯域幅GPU接続を実現します。

NVIDIAは、GB200 NVL72の導入によりAIインフラストラクチャにおける重要な進歩を発表しました。これにより、Kubernetes上でのAIワークロードの展開とスケーリングが強化されます。NVIDIAによると、このイノベーションは大規模言語モデルのトレーニング方法と、スケーラブルで低遅延の推論ワークロードの管理方法を再定義するものです。

ComputeDomains: 新しい抽象化

この開発の核心は、ComputeDomainsと呼ばれる新しいKubernetes抽象化にあります。この抽象化は、マルチノードNVLinkファブリックを使用してノード間での安全なGPU間メモリ操作を確保する複雑さを簡素化するように設計されています。ComputeDomainsはNVIDIA DRA GPUドライバーに統合され、NVIDIA NVLinkやIMEXなどの低レベルGPU構造とKubernetesネイティブなスケジューリングコンセプトを橋渡しします。

ComputeDomainsは、ワークロードがスケジュールされるときにIMEXドメインを動的に作成・管理することで、静的で手動定義されたNVLinkセットアップの制限に対処します。この柔軟性によりセキュリティ分離、障害耐性、コスト効率が向上し、現代のAIインフラストラクチャに堅牢なソリューションを提供します。

GPUシステム設計の進歩

シングルノードからマルチノードGPUコンピューティングへの進化は重要でした。以前のNVIDIA DGXシステムはノード内スケーリングに限定されていました。しかし、NVIDIAのマルチノードNVLink（MNNVL）により、異なるサーバー間のGPUが完全なNVLinkの帯域幅で通信できるようになり、ラック全体が統一されたGPUファブリックに変換されます。これにより、シームレスなパフォーマンススケーリングが可能になり、超高速分散トレーニングと推論の基盤が形成されます。

ComputeDomainsは、マルチノードNVLinkをサポートするKubernetesネイティブな方法を提供することでこの進歩を活用し、すでにNVIDIAのKubernetesスタックにおける複数の高レベルコンポーネントの基盤となっています。

実装とメリット

NVIDIA DRA GPUドライバーは現在、ワークロードがスケジュールされ完了するときにIMEXドメインを動的に管理するComputeDomainsを提供しています。この動的管理により、各ワークロードが独自の分離されたIMEXドメインを取得し、高いリソース利用率を維持しながら安全なGPU間通信を促進します。

ComputeDomainsにより、ノード間でのシームレスな統合と管理が可能になり、ワークロードの増減に応じて動的に調整されます。これはセキュリティと障害分離を強化するだけでなく、特にマルチテナント環境でのリソース利用率を最大化します。

将来の展望

NVIDIA DRA GPUドライバーの最新リリースであるバージョン25.8.0には、ComputeDomainsの重要な改善が含まれています。これらの強化は、より柔軟なスケジューリングと使いやすさを提供し、ノードあたり単一ポッドの制約などの現在の制限に対処し、リソース利用率を向上させることを目的としています。

NVIDIAがAIインフラストラクチャの境界を押し広げ続ける中、ComputeDomainsはGB200 NVL72のようなプラットフォーム上でスケーラブルでトポロジーを意識したAIオーケストレーションの基盤となる見込みです。これらのイノベーションは、マルチノードトレーニングと推論を合理化し、分散ワークロードのKubernetes上での展開と管理をより簡単にすることを約束します。

画像ソース: Shutterstock

Source: https://blockchain.news/news/kubernetes-embraces-multi-node-nvlink-ai-workloads