Gemini 3 Proは、Googleの最も「合理的な」モデルとして紹介され、同社は多くの点でこのソリューションを業界のリーダーとして公然と位置づけています。独立した評価もこれを裏付けています。
Artificial Analysisによると、このモデルは彼らの総合インデックスの新たなリーダーとなりました。
Artificial AnalysisのAIインデックス。データ: Artificial Analysis.
Artificial Analysisのテストを信じるならば、Googleは知的タスクの分野—推論、複雑な構造の理解、精度、マルチモダリティ—で競合他社をリードしています。
Deep Analysisでのパフォーマンスは特に注目に値します。ツールを使わずに博士レベルの問題を解く能力を評価する「Humanity's Last Exam」では、Gemini 3 Proは37%以上のスコアを獲得しました。
これは以前の記録より10パーセントポイント以上高い数値です。ルールを導き出し、新しい状況に適用する能力を評価する最も難しいベンチマークの一つであるARC-AGI-2でも、このモデルは大半の競合他社を上回りました。
Artificial Analysisによる10の専門テストの結果。データ: Artificial Analysis.
Googleは、数学テストでも高いパフォーマンスが見られると強調しています。従来、極度に複雑な質問がモデルのバランスを崩すMathArena Apexテストでは、Gemini 3 Proは23.4%を獲得しました。以前はこの数値は他のシステムでは達成不可能で、最高の結果でも5.2%を超えませんでした。
MathArena Apexテスト結果。データ: MathArena.
マルチモーダルテストでも、更新されたGeminiはトップの位置を占めています。専門家はこれを、モデルの潜在的な大規模さに直接起因すると考えています。
この仮説は、視覚分析や空間理解を含むタスクで、GoogleのAIが他社の製品を上回る能力を説明するものです。
ClaudeやChatGPTとの比較も特筆に値します。GitHubタスクを自律的に処理する能力をテストするSWE-Bench Verifiedベンチマークでは、新モデルはSonnet 4.5に1%差で遅れをとっています。他の指標では、Geminiが頻繁にリードしています。
異なるAIモデルの比較テスト結果。データ: Google.
もう一つの重要な証拠はモデルの速度です。Artificial Analysisによると、Gemini 3 Proは1秒あたり約128トークンを生成します。これはGPT-5.1、Kimi K2 Thinking、Grok 4のパフォーマンスよりも速いです。
これはおそらく、Tensor Processing Unit(TPU)プロセッサに基づくGoogleの独自ハードウェアプラットフォームによるものです。
このように、多くのパラメータにおいて、このモデルは既存のフラッグシップモデルと自信を持って競争し、多くの場合それらを上回っています。同時に、一部のテストでは競合他社に遅れをとっていますが、通常はわずかな差にとどまっています。
Gemini 3 Proの技術データ。データ: Google.
Gemini 3 Proの新機能の説明。データ: Google.
Vending-Bench 2テスト。データ: Google.








