EDMONTON, CANADÁ – 28 DE ENERO: Una mujer sostiene un teléfono móvil frente a una pantalla de ordenador que muestra el logotipo de DeepSeek, el 28 de enero de 2025, en Edmonton, Canadá. (Foto de Artur Widak/NurPhoto via Getty Images)
NurPhoto via Getty Images
DeepSeek V4, la tan esperada actualización de DeepSeek, llega en un momento de feroz competencia, cuando el GPT 5.5 de OpenAI y el Opus 4.7 de Anthropic acaban de lanzarse uno tras otro. La carrera de modelos de IA alcanza aparentemente un nuevo nivel. Como firme defensora de las herramientas de código abierto, DeepSeek impresiona a los desarrolladores por su eficiencia en costes más que por su escala bruta.
La versión preliminar incluye dos modelos Mixture-of-Experts con una ventana de contexto de un millón de tokens: DeepSeek-V4-Pro, con 1,6 billones de parámetros totales y 49.000 millones de parámetros activados, y DeepSeek-V4-Flash, con 284.000 millones de parámetros totales y 13.000 millones de parámetros activados.
Los agentes de contexto largo, los asistentes de programación, las herramientas de investigación y los copilotos empresariales se enfrentan al mismo cuello de botella: cada token recién generado puede necesitar remitirse a un historial creciente de documentos, código, llamadas a herramientas y razonamiento intermedio. El informe técnico de DeepSeek demuestra que sus modelos V4 abordan este problema mediante compresión arquitectónica, en lugar de simplemente pedir a los usuarios que paguen por más capacidad de cómputo.
La innovación clave: comprimir la memoria sin perder el razonamiento
El cambio arquitectónico más importante de DeepSeek V4 es un diseño de atención híbrida que combina la Atención Dispersa Comprimida (CSA) con la Atención Muy Comprimida (HCA). Esto significa que el modelo no almacena ni analiza cada token anterior de la misma manera costosa. La CSA comprime grupos de entradas clave-valor y luego selecciona los bloques comprimidos más relevantes. La HCA comprime de forma aún más agresiva, permitiendo una atención densa sobre un flujo de memoria mucho más corto.
Esto importa porque la atención es uno de los principales factores de coste en la IA de contexto largo. A medida que aumenta la longitud del contexto, la atención convencional se vuelve cada vez más costosa tanto en cómputo como en memoria. El diseño de atención híbrida de DeepSeek trata el contexto largo como un problema de ingeniería de jerarquía de memoria. Cierta información requiere atención local detallada. Otra puede comprimirse. Al combinar estos modos, V4 convierte el contexto de un millón de tokens en una capacidad más práctica. A principios de este año, los investigadores de DeepSeek publicaron un artículo que proponía Engram, un módulo de memoria condicional que mejora la eficiencia del razonamiento separando estructuralmente la recuperación de conocimiento estático del cómputo dinámico.
Por qué esto podría impulsar más innovación en IA
Un menor coste de inferencia cambia quién puede experimentar. Cuando el razonamiento de contexto largo se abarata, más desarrolladores pueden crear agentes que lean repositorios completos, analicen extensos registros legales, comparen presentaciones financieras de múltiples documentos u operen en sesiones prolongadas de uso de herramientas. Esto amplía el espacio de diseño más allá de los prompts de chatbot.
Para las startups, DeepSeek V4 reduce el coste de probar aplicaciones ambiciosas. Para las empresas, hace que los flujos de trabajo de contexto amplio sean más viables. Para los desarrolladores de código abierto, ofrece una receta técnica: combinar la dispersión MoE, la compresión de contexto largo, la inferencia de baja precisión, los kernels personalizados y el entrenamiento posterior para tareas agénticas.
El mensaje del hardware: los modelos de IA ahora le dicen a los chips qué deben ser
DeepSeek V4 también destaca porque el informe técnico hace sugerencias explícitas sobre el diseño de hardware. El equipo argumenta que el hardware del futuro debería optimizar la relación entre cómputo y comunicación, en lugar de aumentar el ancho de banda a ciegas.
Reuters también informó de que DeepSeek V4 ha sido adaptado para funcionar en los chips Ascend de Huawei, y que Huawei afirmó que sus clústeres de supernodos basados en Ascend 950 soportan completamente la serie V4. Esto convierte a V4 en parte de una historia de hardware más amplia. La carrera de la IA está pasando de los pesos de los modelos al co-diseño de pila completa, donde modelos, kernels, sistemas de memoria, interconexiones y chips coevolucionan.
Una inteligencia más barata expande el mercado
La consecuencia más importante de DeepSeek V4 puede ser económica. Cuando el coste del razonamiento de contexto largo disminuye, los casos de uso de IA que antes parecían demasiado costosos se vuelven más viables. Los agentes de base de código completa, los asistentes de investigación a largo plazo, los flujos de trabajo legales con gran cantidad de documentos, las herramientas de diligencia debida financiera, los sistemas de revisión de literatura científica y los agentes de conocimiento empresarial se benefician todos de una memoria y una inferencia más baratas.
Esto significa que DeepSeek V4 replantea la carrera de la IA. Si DeepSeek puede ofrecer modelos abiertos sólidos con menores requisitos de memoria y cómputo, los líderes de código cerrado se enfrentarán a más presión para justificar sus precios premium. Los competidores de código abierto se enfrentarán a la presión de igualar las técnicas de eficiencia de V4.
Source: https://www.forbes.com/sites/geruiwang/2026/04/26/deepseek-v4-shows-that-the-next-ai-race-is-about-efficiency/







