NVIDIA Nemotron 3 Super が Together AI に100万トークンコンテキストウィンドウで登場
Jessie A Ellis 2026/3/11 21:43
NVIDIAの1200億パラメータNemotron 3 Superモデルが Together AI で利用可能になり、マルチエージェントAIシステムとエンタープライズワークロードに5倍のスループット向上を提供します。
2026/3/11、Together AI は NVIDIA の Nemotron 3 Super を Dedicated Inference プラットフォームで利用可能にすることを発表し、エンタープライズ開発者にマルチエージェントAIシステム向けに最適化された1200億パラメータの推論モデルへのアクセスを提供しました。NVIDIA株は186.03ドルで取引され、このニュースで0.66%上昇しました。
タイミングは重要です。Nemotron 3 Super は、12月の Nano リリースに続く Nemotron 3 ファミリーにおける NVIDIA の2番目のオープンウェイトモデルであり、本番環境の AI における特定の課題、すなわち複雑なエージェントワークフローを大規模に実行する際の計算オーバーヘッドをターゲットにしています。
アーキテクチャが重要な理由
このモデルが典型的なパラメータ数競争と異なる点は以下の通りです。総パラメータ数は1200億ですが、推論中にアクティブなのは120億のみです。Transformer アテンションと Mamba シーケンス処理を組み合わせたハイブリッド設計により、NVIDIA は以前の Nemotron Super モデルと比較して5倍高いスループットを実現したと主張しています。
100万トークンのコンテキストウィンドウは、開発者が「コンテキスト爆発」と呼ぶ問題に対処します。マルチエージェントアプリケーションは、標準的なチャットインタラクションの15倍のトークンを消費する可能性があり、ほとんどのモデルはその負荷に対応できません。Nemotron 3 Super は、パフォーマンスの低下なしに、コードベース全体、長大なドキュメントストア、拡張されたエージェントトラジェクトリを処理します。
マルチトークン予測トレーニングにより、モデルは1回のフォワードパスで複数のトークンを同時に生成できます。コード生成や構造化された出力に対して、NVIDIA は主要なオープンモデルと比較して50%高速なトークン生成を報告しています。
Together AI の戦略
100万トークンコンテキストを持つ1200億のハイブリッドモデルを実行するには、通常、複数のノードにわたる分散コンピューティングが必要です。Together AI の Dedicated Inference サービスは、単一の NVIDIA H200 または H100 GPU へのデプロイメントを簡素化します。開発者側での GPU プロビジョニングは不要です。
このプラットフォームは99.9%のアップタイム SLA と SOC 2 準拠を約束し、研究レベルの実験ではなくエンタープライズ対応のインフラストラクチャとして位置付けられています。
本番環境でのアプリケーション
ターゲットとなる使用例には、コードベースを分析する開発者アシスタント、エンタープライズドキュメント処理システム、サイバーセキュリティの脆弱性トリアージ、専門エージェント間でタスクをルーティングするオーケストレーション層が含まれます。
NVIDIA の Nemotron Open Model License の下でリリースされたオープンウェイトアプローチにより、チームは特定の環境に合わせてファインチューニングし、オンプレミスでデプロイできます。これはデータ主権要件を持つ企業にとって重要な考慮事項です。
NVIDIA は 2026/3/10 に NemoClaw も発表しました。これは Nemotron 3 Super のデプロイメントを補完できる AIエージェント向けのオープンソースプラットフォームです。開発者は Together AI の専用推論層を通じて、すぐにモデルにアクセスできます。
画像ソース: Shutterstock- nvidia
- ai infrastructure
- nemotron
- together ai
- enterprise ai








