DeepSeek V4 montre que la prochaine course à l'IA est une question d'efficacité

EDMONTON, CANADA – 28 JANVIER : Une femme tient un téléphone portable devant un écran d'ordinateur affichant le logo DeepSeek, le 28 janvier 2025, à Edmonton, Canada. (Photo by Artur Widak/NurPhoto via Getty Images)

NurPhoto via Getty Images

DeepSeek V4, la mise à jour tant attendue de DeepSeek, arrive à un moment de vive concurrence, alors que le GPT 5.5 d'OpenAI et l'Opus 4.7 d'Anthropic viennent tout juste d'être lancés l'un après l'autre. La course aux modèles d'IA atteint apparemment un nouveau niveau. En tant que défenseur unique des outils open source, DeepSeek impressionne les développeurs par son efficacité économique plutôt que par sa seule envergure.

La version préliminaire comprend deux modèles Mixture-of-Experts avec une fenêtre de contexte d'un million de tokens : DeepSeek-V4-Pro, avec 1,6 billion de paramètres au total et 49 milliards de paramètres activés, et DeepSeek-V4-Flash, avec 284 milliards de paramètres au total et 13 milliards de paramètres activés.

Les agents à contexte long, les assistants de codage, les outils de recherche et les copilotes d'entreprise se heurtent tous au même goulot d'étranglement : chaque token nouvellement généré peut avoir besoin de se référer à un historique croissant de documents, de code, d'appels d'outils et de raisonnements intermédiaires. Le rapport technique de DeepSeek démontre que ses modèles V4 résolvent ce problème grâce à une compression architecturale, plutôt qu'en demandant simplement aux utilisateurs de payer pour plus de puissance de calcul.

L'innovation fondamentale : compresser la mémoire sans perdre le raisonnement

La modification architecturale la plus importante de DeepSeek V4 est un design d'attention hybride qui combine l'Attention Sparse Compressée (CSA) et l'Attention Hautement Compressée (HCA). Cela signifie que le modèle ne stocke ni ne parcourt chaque token précédent de la même manière coûteuse. Le CSA compresse des groupes d'entrées clé-valeur, puis sélectionne les blocs compressés les plus pertinents. Le HCA compresse encore plus agressivement, permettant une attention dense sur un flux de mémoire beaucoup plus court.

Cela est important car l'attention est l'un des principaux facteurs de coût dans l'IA à contexte long. À mesure que la longueur du contexte augmente, l'attention conventionnelle devient de plus en plus coûteuse en calcul et en mémoire. Le design d'attention hybride de DeepSeek traite le contexte long comme un problème d'ingénierie de hiérarchie de mémoire. Certaines informations nécessitent une attention locale fine. D'autres peuvent être compressées. En combinant ces modes, V4 transforme le contexte d'un million de tokens en une capacité plus pratique. Plus tôt cette année, des chercheurs de DeepSeek ont publié un article proposant Engram, un module de mémoire conditionnel qui améliore l'efficacité du raisonnement en séparant structurellement la récupération de connaissances statiques du calcul dynamique.

Pourquoi cela pourrait stimuler davantage l'innovation en IA

La réduction du coût d'inférence change qui peut expérimenter. Lorsque le raisonnement à contexte long devient moins cher, davantage de développeurs peuvent construire des agents qui lisent des dépôts complets, analysent de longs dossiers juridiques, comparent des documents financiers multi-documents, ou opèrent sur des sessions d'utilisation d'outils étendues. Cela élargit l'espace de conception au-delà des simples invites de chatbot.

Pour les startups, DeepSeek V4 réduit le coût d'essai d'applications ambitieuses. Pour les entreprises, il rend les flux de travail à grand contexte plus réalistes. Pour les développeurs open source, il fournit une recette technique : combiner la sparsité MoE, la compression à contexte long, l'inférence à faible précision, les noyaux personnalisés et le post-entraînement pour les tâches agentiques.

Le message matériel : les modèles d'IA dictent désormais aux puces ce qu'elles doivent devenir

DeepSeek V4 est également remarquable parce que le rapport technique formule des suggestions explicites sur la conception matérielle. L'équipe soutient que le matériel futur devrait optimiser le rapport entre calcul et communication, plutôt que d'augmenter aveuglément la bande passante.

Reuters a également rapporté que DeepSeek V4 a été adapté pour fonctionner sur les puces Ascend de Huawei, et que Huawei a indiqué que ses clusters supernode basés sur l'Ascend 950 prennent entièrement en charge la série V4. Cela fait de V4 une partie d'une histoire matérielle plus large. La course à l'IA passe des poids de modèles à la co-conception full-stack, où les modèles, les noyaux, les systèmes de mémoire, les interconnexions et les puces co-évoluent.

Une intelligence moins chère élargit le marché

La conséquence la plus importante de DeepSeek V4 pourrait être économique. Lorsque le coût du raisonnement à contexte long diminue, les cas d'usage de l'IA qui semblaient autrefois trop coûteux deviennent plus envisageables. Les agents de base de code complète, les assistants de recherche à long horizon, les flux de travail juridiques à forte densité documentaire, les outils de diligence raisonnable financière, les systèmes de revue de littérature scientifique et les agents de connaissance d'entreprise bénéficient tous d'une mémoire et d'une inférence moins chères.

Cela signifie que DeepSeek V4 recadre la course à l'IA. Si DeepSeek peut fournir de solides modèles ouverts avec des exigences inférieures en mémoire et en calcul, les leaders à source fermée feront face à une pression accrue pour justifier leurs tarifs premium. Les concurrents open source feront face à la pression de correspondre aux techniques d'efficacité de V4.

Source: https://www.forbes.com/sites/geruiwang/2026/04/26/deepseek-v4-shows-that-the-next-ai-race-is-about-efficiency/

DeepSeek V4 montre que la prochaine course à l'IA est une question d'efficacité

L'innovation fondamentale : compresser la mémoire sans perdre le raisonnement

Pourquoi cela pourrait stimuler davantage l'innovation en IA

Le message matériel : les modèles d'IA dictent désormais aux puces ce qu'elles doivent devenir

Une intelligence moins chère élargit le marché

Vous aimerez peut-être aussi

La gaffe « embarrassante » sur le drapeau de l'administration Trump laisse les spectateurs stupéfaits

Les ETFs XRP au comptant atteignent 1,29 milliard de dollars d'entrées alors que XRP se maintient près de 1,43 $

La prédiction du prix d'Avax pourrait-elle atteindre 55 $ avant que Pepeto n'atteigne l'événement qui change tout

Actualités tendance

La semaine à venir : Les résultats des Magnificent Seven et la décision de la Fed sur les taux au centre de l'attention

La Cour suprême 'se désintègre' alors que les juges se livrent à de glaçantes attaques publiques : analyse

L'action Silicon Motion (SIMO) bondit de 8 % grâce à l'élan du stockage dans les centres de données IA

Trump dit aux mauvaises personnes « Vous êtes viré » — et paralyse l'Amérique

Infrastructure IA et Expérience Client : Comment l'Innovation Cadence–TSMC Redéfinit la CX au Niveau du Silicium

Actualités en direct 24h/24 et 7j/7

Prix des cryptomonnaies