DeepSeek V4: análisis completo de Pro y Flash — benchmarks, pricing y cuándo usar cada uno
TL;DR
- V4-Pro es el mejor modelo open-weight en coding (LiveCodeBench 93.5, Codeforces 3206) y empata a GPT-5.4 en conocimiento general (MMLU-Pro 87.5).
- V4-Flash a $0.14/M input es probablemente el modelo más rentable del mercado para tareas generales, con solo 1-3 puntos de gap frente a Pro en la mayoría de benchmarks.
- V4-Pro cuesta 7-9x menos en output que Claude Opus 4.6 y GPT-5.4. Con la promo del 75% activa hasta el 5 de mayo, la diferencia se amplía aún más.
- Las debilidades reales: solo texto, lento (36.9 tok/s), muy verboso (4.4x la media), y un único provider API.
Contexto
El 23 de abril de 2026 DeepSeek soltó V4-Pro y V4-Flash, dos modelos Mixture-of-Experts con licencia MIT y 1M tokens de contexto. Es el primer release importante desde V3.2, y viene con una mejora arquitectónica significativa (atención híbrida CSA+HCA) que reduce el KV cache al 10% del tamaño de V3.2 a contexto máximo.
DeepSeek ya hizo esto con R1 — igualar a o1 de OpenAI a una fracción del precio y brevemente hundir las acciones de NVIDIA. V4 repite la jugada, pero esta vez el target son GPT-5.4 y Claude Opus 4.6.
¿Merece la pena? Vamos a los datos.
Arquitectura: qué cambia respecto a V3.2
Ambos modelos usan atención híbrida que combina Compressed Sparse Attention (CSA) y Heavily Compressed Attention (HCA), junto con manifold-constrained hyper-connections (mHC) y el optimizador Muon. La consecuencia práctica:
- KV cache al 10% del tamaño de V3.2 a 1M tokens de contexto (7% en Flash)
- 27% de los FLOPs por token respecto a V3.2 en contexto largo (10% en Flash)
- 1M tokens de contexto sin recargo — a diferencia de los labs occidentales que cobran premium por ventanas largas
| V4-Pro | V4-Flash | |
|---|---|---|
| Params totales | 1.6T | 284B |
| Params activos | 49B | 13B |
| Tokens entrenamiento | 33T | 32T |
| Contexto | 1M | 1M |
| Max output | 384K | 384K |
| Peso (FP4+FP8) | ~862GB | ~158GB |
| Licencia | MIT | MIT |
La diferencia clave entre Pro y Flash es la profundidad del pool de expertos — Pro enruta a través de muchos más sub-redes especializadas. Ambos se entrenaron con volúmenes de tokens casi idénticos (33T vs 32T), lo que sugiere que la brecha de rendimiento viene de la arquitectura, no de los datos.
Benchmarks: conocimiento y razonamiento
V4-Pro vs modelos frontier
| Benchmark | V4-Pro | GPT-5.4 | Claude Opus 4.6 | Gemini-3.1-Pro |
|---|---|---|---|---|
| MMLU-Pro | 87.5 | 87.5 | 89.1 | 91.0 |
| LiveCodeBench | 93.5 | — | 88.8 | 91.7 |
| Codeforces Rating | 3206 | 3168 | N/R | 3052 |
| Apex Shortlist | 90.2 | 78.1 | 85.9 | 89.1 |
| HLE | 37.7 | 39.8 | 40.0 | 44.4 |
| IMOAnswerBench | 89.8 | 91.4 | 75.3 | 81.0 |
| HMMT 2026 | 95.2 | 97.7 | 96.2 | — |
| SimpleQA-Verified | 57.9 | — | — | 75.6 |
Lectura: V4-Pro domina en coding — lidera LiveCodeBench, Codeforces y Apex Shortlist. Empata a GPT-5.4 en MMLU-Pro (conocimiento general). Pierde contra Gemini-3.1-Pro en factual recall (SimpleQA) y contra GPT-5.4 en matemáticas competitivas (HMMT, IMO).
V4-Pro vs V4-Flash: ¿cuánto se pierde con Flash?
| Benchmark | V4-Flash | V4-Pro | Gap |
|---|---|---|---|
| MMLU-Pro | 86.2 | 87.5 | -1.3 |
| LiveCodeBench | 91.6 | 93.5 | -1.9 |
| Codeforces | 3052 | 3206 | -154 |
| SWE-Verified | 79.0 | 80.6 | -1.6 |
| GPQA Diamond | ~86 | 90.1 | -4.1 |
| Terminal-Bench 2.0 | 56.9 | 67.9 | -11.0 |
| SimpleQA-Verified | 34.1 | 57.9 | -23.8 |
| MCPAtlas Public | ~65 | 73.6 | -8.6 |
Lectura: El gap es consistente de 1-3 puntos en tareas de conocimiento y coding básico. Pero se abre a 8-24 puntos en factual recall y tool use multi-step. Flash no es un modelo de segunda — es competitivo en la mayoría de tareas, pero no sustituye a Pro en agentes complejos.
“V4-Flash-Max alcanza rendimiento comparable a Pro con un thinking budget mayor, aunque su escala menor lo sitúa por detrás en recall factual y workflows agentic complejos.” — DeepSeek (model card oficial)
Benchmarks: capacidades agentic
| Benchmark | V4-Pro | GPT-5.4 | Claude Opus 4.6 | Gemini-3.1-Pro |
|---|---|---|---|---|
| SWE-Verified | 80.6 | N/R | 80.8 | 80.6 |
| Terminal-Bench 2.0 | 67.9 | 75.1 | 65.4 | 68.5 |
| MCPAtlas Public | 73.6 | 67.2 | 73.8 | 69.2 |
| Toolathlon | 51.8 | 54.6 | 47.2 | 48.8 |
| BrowseComp | 83.4 | — | 83.7 | 85.9 |
V4-Pro empata a Claude en SWE-Verified y supera a GPT-5.4 en MCPAtlas. Pero GPT-5.4 le gana en Terminal-Bench (tool use secuencial) y Toolathlon (uso general de herramientas). Para agentes que ejecutan 10+ tool calls en workflows largos, GPT-5.4 sigue siendo superior en fiabilidad.
Pricing: la historia completa
Precios por 1M tokens
| Modelo | Input (miss) | Input (hit) | Output |
|---|---|---|---|
| V4-Flash | $0.14 | $0.028 | $0.28 |
| V4-Pro | $1.74 | $0.145 | $3.48 |
| V4-Pro 🔥 promo 75% | $0.435 | $0.036 | $0.87 |
| GPT-5.4 | $2.50 | — | $15.00 |
| Claude Opus 4.6 | $5.00 | — | $25.00 |
| Gemini-3.1-Pro | $1.25 | — | $5.00 |
Promoción activa: V4-Pro con 75% de descuento hasta el 5 de mayo de 2026, 15:59 UTC. Fuente: tweet oficial de DeepSeek.
Coste efectivo con cache hits
Con un cache hit ratio del 65-70% (típico en workloads conversacionales):
- V4-Flash: ~$0.06/M input efectivo
- V4-Pro (promo): ~$0.18/M input efectivo
Eso sitúa a V4-Flash como el modelo más barato del mercado para tareas generales, por amplio margen.
Descuento off-peak
DeepSeek aplica un 50% adicional durante horario nocturno de Beijing (~23:00-07:00 Beijing = ~15:00-23:00 UTC). Se aplica automáticamente, sin cambios en el código.
Integraciones agentic
V4-Pro incluye adaptadores pre-ajustados para Claude Code, OpenClaw, OpenCode y CodeBuddy — basta cambiar la base URL para usarlo como drop-in replacement.
Detalles de implementación:
- Cuando DeepSeek detecta una petición de Claude Code u OpenCode, el thinking effort auto-escala a
maxsin intervención del usuario - Soporta hasta 128 function calls en paralelo
- Tres modos de razonamiento vía el parámetro
reasoning_effort:non-think(rápido, sin cadena),think high(análisis moderado),think max(cadena de pensamiento profunda)
⚠️ Nota práctica: El auto-escalado a max thinking consume significativamente más tokens. Si controlas costes, es mejor setear
reasoning_effortexplícitamente en lugar de depender del auto-detect.
Debilidades honestas
No todo es perfecto. Estos son los problemas reales que encontré:
-
Solo texto. Sin visión ni multimodalidad. Si tus agentes analizan imágenes, screenshots o documentos escaneados, V4 no sirve.
-
Lento. 36.9 tok/s en V4-Pro, significativamente por debajo de la media de la categoría (~57 tok/s). Según Artificial Analysis, está en el percentil 42 en velocidad. Para agentes interactivos donde la latencia importa, es un problema.
-
Muy verboso. Generó 190M tokens en las evaluaciones de Artificial Analysis — 4.4x la media de la categoría (43M). Eso infla el coste real por debajo de lo que sugiere el pricing por token. Un modelo que genera 4x más tokens por respuesta no es 4x más barato en la práctica.
-
Un solo provider API. Solo está disponible a través de la API first-party de DeepSeek. Si su infraestructura cae, no hay fallback. Para workloads en producción, eso es un riesgo real.
-
Auto-escalado silencioso. El thinking effort sube a max automáticamente con Claude Code/OpenCode. Más tokens, más lento, más caro — sin aviso.
¿Cuándo usar cada variante?
V4-Pro tiene sentido cuando
- Haces coding pesado (refactoring multi-fichero, debugging complejo) y quieres frontier quality sin pagar precios de Claude/GPT
- Ejecutas agentes con 10+ tool calls en workflows secuenciales
- Necesitas 1M tokens de contexto sin sobrecoste
- La promo del 75% sigue activa (hasta 5 mayo 2026)
- El budget lo permite y la latencia no es crítica
V4-Flash tiene sentido cuando
- Tienes alto volumen y necesitas controlar costes agresivamente
- Las tareas son generales: QA, resúmenes, clasificación, code completion simple, code review
- Quieres un baseline sólido para routing inteligente entre modelos
- La latencia no es el factor decisivo
Busca alternativas cuando
- Necesitas multimodalidad (visión, audio) → Gemini-3.1-Pro o Claude Opus
- La velocidad de respuesta es crítica → GPT-5.4 o Claude Sonnet
- Quieres provider diversity y fallback → Claude + GPT combinados
- Las tareas requieren factual recall de alta precisión → Gemini-3.1-Pro (SimpleQA 75.6 vs 57.9 de V4-Pro)
Metodología
Este análisis se basa en:
- Model card oficial de DeepSeek V4-Pro y V4-Flash en Hugging Face
- Benchmarks públicos de los papers de DeepSeek, reproducidos por terceros
- Artificial Analysis Intelligence Index v4.0 para rankings comparativos de calidad, velocidad y precio
- Pricing oficial de la API de DeepSeek, incluyendo la promo del 75% verificada en el tweet oficial
- Posts técnicos de Lushbinary, DataCamp y OfficeChai como fuentes secundarias
Conclusión
DeepSeek V4-Pro es, según Artificial Analysis, el #2 en inteligencia entre 76 modelos comparables. Es el mejor modelo open-weight en coding por margen claro. Y cuesta entre 7x y 90x menos que los modelos cerrados equivalentes, dependiendo de si comparas con Pro o Flash.
V4-Flash a $0.14/M input es probablemente el modelo con mejor ratio calidad/precio del mercado para tareas generales.
El trade-off es claro: rendimiento frontier a precio de mid-range, pero lento, verboso y solo texto. Para agentes que necesitan latencia baja o procesamiento multimodal, los modelos de Anthropic, OpenAI y Google siguen siendo superiores.
La pregunta ya no es si V4 es “lo bastante bueno”. Es si puedes permitirte no usarlo.
Fuentes: Model card DeepSeek V4-Pro (Hugging Face), Pricing oficial DeepSeek, Artificial Analysis — V4-Pro, Lushbinary — V4 Pro vs Flash, OfficeChai — Benchmarks completos