DeepSeek V4 startet mit NVIDIA Blackwell und ermöglicht KI mit 1M-Token-Kontext

Iris Coleman 25.04.2026 00:10

DeepSeek V4, angetrieben von NVIDIA Blackwell, bietet KI mit 1M-Token-Kontext bei reduziertem Speicher-Overhead und schnellerer Inferenz und richtet sich an Workflows mit langen Kontexten.

DeepSeek V4 startet mit NVIDIA Blackwell und ermöglicht KI mit 1M-Token-Kontext

DeepSeek hat seine KI-Modelle der vierten Generation vorgestellt – DeepSeek-V4-Pro und DeepSeek-V4-Flash – und erweitert damit die Grenzen der Inferenz mit langen Kontexten. Diese Modelle, die jetzt über NVIDIAs GPU-beschleunigte Blackwell-Endpunkte verfügbar sind, sind darauf ausgelegt, ein Kontextfenster von bis zu 1 Million Token zu verarbeiten – ein bedeutender Fortschritt für Anwendungen wie erweitertes Coding, Dokumentenanalyse und agentische KI-Workflows.

Das Flaggschiff DeepSeek-V4-Pro verfügt über 1,6 Billionen Gesamtparameter mit 49 Milliarden aktiven Parametern, während das effizienzorientierte DeepSeek-V4-Flash 284 Milliarden Gesamtparameter und 13 Milliarden aktive Parameter aufweist. Beide Modelle sind unter MIT lizenziert und bedienen unterschiedliche Anwendungsfälle – Pro für erweitertes Reasoning und Flash für Hochgeschwindigkeitsaufgaben wie Zusammenfassung und Routing.

Architektonische Durchbrüche für KI mit langen Kontexten

DeepSeek V4 baut auf der Mixture-of-Experts (MoE)-Architektur des Unternehmens auf und führt Innovationen ein, die darauf abzielen, die Herausforderungen der Inferenz mit langen Kontexten zu überwinden. Der neue hybride Attention-Mechanismus kombiniert Compressed Sparse Attention (CSA) und Heavily Compressed Attention (HCA) und ermöglicht eine Reduzierung der Inferenz-FLOPs pro Token um 73 % sowie eine Reduzierung des KV-Cache-Speicherverbrauchs um 90 % im Vergleich zum Vorgänger DeepSeek V3.2.

Warum ist das wichtig? Da sich Kontextfenster ausweiten, wird die Verwaltung von Speicher- und Recheneffizienz entscheidend. KI-Anwendungen mit langen Kontexten wie mehrstufiges Reasoning, Tool-Integration und umfangreiche Workflows erfordern Modelle, die große Mengen kontextueller Daten ohne Engpässe speichern und verarbeiten können. Die Verbesserungen von DeepSeek V4 adressieren diese Schwachstellen und machen es zu einem starken Kandidaten für Unternehmen, die KI-gesteuerte Systeme skalieren möchten.

NVIDIA Blackwell Integration

DeepSeek V4 ist eng mit NVIDIAs Blackwell-Plattform integriert und nutzt deren GPU-beschleunigte Infrastruktur für skalierbare Leistung. Erste Tests auf der NVIDIA GB200 NVL72-Hardware zeigen, dass DeepSeek-V4-Pro über 150 Token pro Sekunde pro Nutzer erreicht, wobei laufende Optimierungen den Durchsatz weiter verbessern sollen.

Blackwells Architektur ist für Intelligenzmodelle mit Billionen von Parametern ausgelegt und damit eine natürliche Ergänzung für die Rechenanforderungen von DeepSeek V4. Entwickler können mit diesen Modellen über NVIDIAs gehostete Endpunkte auf build.nvidia.com prototypisieren oder sie direkt mit NVIDIA NIM für benutzerdefinierte Infrastruktur-Setups bereitstellen.

Zielanwendungsfälle und Deployment-Flexibilität

DeepSeek V4's Fähigkeit, 1M-Token-Kontexte zu verarbeiten, eröffnet neue Möglichkeiten für Coding mit langen Kontexten, retrieval-basierte Workflows und agentische KI. Die Flexibilität wird durch Deployment-Tools wie SGLang und vLLM weiter verbessert, die Rezepte bieten, die auf unterschiedliche Latenz- und Durchsatzanforderungen zugeschnitten sind – von Low-Latency-Setups bis hin zu Multi-GPU-Konfigurationen für groß angelegte Operationen.

Dieser Fokus auf Deployment-Flexibilität unterstreicht einen breiteren Trend: Da offene KI-Modelle die Grenze der Intelligenz annähern, verlagern Unternehmen ihre Aufmerksamkeit von der Modellauswahl zur Infrastrukturoptimierung. Das übergeordnete Ziel ist die Reduzierung der Kosten pro Token bei gleichbleibender Leistung, und DeepSeek V4 steht genau in Einklang mit dieser Priorität.

Erste Schritte

Entwickler können auf DeepSeek V4 über mehrere Kanäle zugreifen, darunter Hugging Face und NVIDIAs API-Endpunkte. Für Unternehmen und Entwickler, die KI mit langen Kontexten in ihre Workflows integrieren möchten, bietet DeepSeek V4 eine überzeugende Kombination aus Skalierbarkeit, Effizienz und erweiterter Reasoning-Fähigkeit.

Mit seinen architektonischen Fortschritten und der nahtlosen Integration mit NVIDIA Blackwell setzt DeepSeek V4 einen neuen Maßstab für KI mit langen Kontexten. Da die Nachfrage nach agentischen Systemen und umfangreichen Kontextfenstern wächst, werden Modelle wie diese eine zentrale Rolle bei der Gestaltung der nächsten Generation von KI-Anwendungen spielen.

Bildquelle: Shutterstock

deepseek v4
nvidia blackwell
ai models
long-context inference

DeepSeek V4 startet mit NVIDIA Blackwell und ermöglicht KI mit 1M-Token-Kontext

DeepSeek V4 startet mit NVIDIA Blackwell und ermöglicht KI mit 1M-Token-Kontext

Architektonische Durchbrüche für KI mit langen Kontexten

NVIDIA Blackwell Integration

Zielanwendungsfälle und Deployment-Flexibilität

Erste Schritte

Das könnte Ihnen auch gefallen

REGULIERUNG | Zweiter US-Bundesstaat verbietet Krypto-Geldautomaten wegen Betrug

Pi Mining vs Exchange-Preisunterschied enthüllt den verborgenen Wert des Pi Network

Stablecoin-News: Morgan Stanley fügt Stablecoin-Reserveportfolio zum Liquiditätsfonds hinzu

Trendnachrichten

Qualcomm (QCOM) Aktien steigen um 11% vor dem Q2-Gewinnbericht am 29.04.

Chainlink erweitert seine Reichweite durch den Launch im AWS Marketplace

Trade Desk (TTD) Aktie steigt um 6% nach dem massiven Insider-Kauf des CEO in Höhe von 150 Mio. USD

XRP- und Bitcoin-Investoren sind „gefangen" – aber gibt es einen Ausweg?

„Das ist die Grenze": MAGA empört sich über den massiven Erfolg einer Grindr-Party in Trumps Washington D.C.

24/7 Live-Nachrichten

Kryptopreise