NVIDIA Nemotron 3 Super が Together AI に100万トークンコンテキストウィンドウで登場

Jessie A Ellis 2026/3/11 21:43

NVIDIAの1200億パラメータNemotron 3 Superモデルが Together AI で利用可能になり、マルチエージェントAIシステムとエンタープライズワークロードに5倍のスループット向上を提供します。

NVIDIA Nemotron 3 Super が Together AI に100万トークンコンテキストウィンドウで登場

2026/3/11、Together AI は NVIDIA の Nemotron 3 Super を Dedicated Inference プラットフォームで利用可能にすることを発表し、エンタープライズ開発者にマルチエージェントAIシステム向けに最適化された1200億パラメータの推論モデルへのアクセスを提供しました。NVIDIA株は186.03ドルで取引され、このニュースで0.66%上昇しました。

タイミングは重要です。Nemotron 3 Super は、12月の Nano リリースに続く Nemotron 3 ファミリーにおける NVIDIA の2番目のオープンウェイトモデルであり、本番環境の AI における特定の課題、すなわち複雑なエージェントワークフローを大規模に実行する際の計算オーバーヘッドをターゲットにしています。

アーキテクチャが重要な理由

このモデルが典型的なパラメータ数競争と異なる点は以下の通りです。総パラメータ数は1200億ですが、推論中にアクティブなのは120億のみです。Transformer アテンションと Mamba シーケンス処理を組み合わせたハイブリッド設計により、NVIDIA は以前の Nemotron Super モデルと比較して5倍高いスループットを実現したと主張しています。

100万トークンのコンテキストウィンドウは、開発者が「コンテキスト爆発」と呼ぶ問題に対処します。マルチエージェントアプリケーションは、標準的なチャットインタラクションの15倍のトークンを消費する可能性があり、ほとんどのモデルはその負荷に対応できません。Nemotron 3 Super は、パフォーマンスの低下なしに、コードベース全体、長大なドキュメントストア、拡張されたエージェントトラジェクトリを処理します。

マルチトークン予測トレーニングにより、モデルは1回のフォワードパスで複数のトークンを同時に生成できます。コード生成や構造化された出力に対して、NVIDIA は主要なオープンモデルと比較して50%高速なトークン生成を報告しています。

Together AI の戦略

100万トークンコンテキストを持つ1200億のハイブリッドモデルを実行するには、通常、複数のノードにわたる分散コンピューティングが必要です。Together AI の Dedicated Inference サービスは、単一の NVIDIA H200 または H100 GPU へのデプロイメントを簡素化します。開発者側での GPU プロビジョニングは不要です。

このプラットフォームは99.9%のアップタイム SLA と SOC 2 準拠を約束し、研究レベルの実験ではなくエンタープライズ対応のインフラストラクチャとして位置付けられています。