DeepSeek V4: análisis completo de Pro y Flash — benchmarks, pricing y cuándo usar cada uno

TL;DR

V4-Pro es el mejor modelo open-weight en coding (LiveCodeBench 93.5, Codeforces 3206) y empata a GPT-5.4 en conocimiento general (MMLU-Pro 87.5).
V4-Flash a $0.14/M input es probablemente el modelo más rentable del mercado para tareas generales, con solo 1-3 puntos de gap frente a Pro en la mayoría de benchmarks.
V4-Pro cuesta 7-9x menos en output que Claude Opus 4.6 y GPT-5.4. Con la promo del 75% activa hasta el 5 de mayo, la diferencia se amplía aún más.
Las debilidades reales: solo texto, lento (36.9 tok/s), muy verboso (4.4x la media), y un único provider API.

Contexto

El 23 de abril de 2026 DeepSeek soltó V4-Pro y V4-Flash, dos modelos Mixture-of-Experts con licencia MIT y 1M tokens de contexto. Es el primer release importante desde V3.2, y viene con una mejora arquitectónica significativa (atención híbrida CSA+HCA) que reduce el KV cache al 10% del tamaño de V3.2 a contexto máximo.

DeepSeek ya hizo esto con R1 — igualar a o1 de OpenAI a una fracción del precio y brevemente hundir las acciones de NVIDIA. V4 repite la jugada, pero esta vez el target son GPT-5.4 y Claude Opus 4.6.

¿Merece la pena? Vamos a los datos.

Arquitectura: qué cambia respecto a V3.2

Ambos modelos usan atención híbrida que combina Compressed Sparse Attention (CSA) y Heavily Compressed Attention (HCA), junto con manifold-constrained hyper-connections (mHC) y el optimizador Muon. La consecuencia práctica:

KV cache al 10% del tamaño de V3.2 a 1M tokens de contexto (7% en Flash)
27% de los FLOPs por token respecto a V3.2 en contexto largo (10% en Flash)
1M tokens de contexto sin recargo — a diferencia de los labs occidentales que cobran premium por ventanas largas

	V4-Pro	V4-Flash
Params totales	1.6T	284B
Params activos	49B	13B
Tokens entrenamiento	33T	32T
Contexto	1M	1M
Max output	384K	384K
Peso (FP4+FP8)	~862GB	~158GB
Licencia	MIT	MIT

La diferencia clave entre Pro y Flash es la profundidad del pool de expertos — Pro enruta a través de muchos más sub-redes especializadas. Ambos se entrenaron con volúmenes de tokens casi idénticos (33T vs 32T), lo que sugiere que la brecha de rendimiento viene de la arquitectura, no de los datos.

Benchmarks: conocimiento y razonamiento

V4-Pro vs modelos frontier

Benchmark	V4-Pro	GPT-5.4	Claude Opus 4.6	Gemini-3.1-Pro
MMLU-Pro	87.5	87.5	89.1	91.0
LiveCodeBench	93.5	—	88.8	91.7
Codeforces Rating	3206	3168	N/R	3052
Apex Shortlist	90.2	78.1	85.9	89.1
HLE	37.7	39.8	40.0	44.4
IMOAnswerBench	89.8	91.4	75.3	81.0
HMMT 2026	95.2	97.7	96.2	—
SimpleQA-Verified	57.9	—	—	75.6

Lectura: V4-Pro domina en coding — lidera LiveCodeBench, Codeforces y Apex Shortlist. Empata a GPT-5.4 en MMLU-Pro (conocimiento general). Pierde contra Gemini-3.1-Pro en factual recall (SimpleQA) y contra GPT-5.4 en matemáticas competitivas (HMMT, IMO).

V4-Pro vs V4-Flash: ¿cuánto se pierde con Flash?

Benchmark	V4-Flash	V4-Pro	Gap
MMLU-Pro	86.2	87.5	-1.3
LiveCodeBench	91.6	93.5	-1.9
Codeforces	3052	3206	-154
SWE-Verified	79.0	80.6	-1.6
GPQA Diamond	~86	90.1	-4.1
Terminal-Bench 2.0	56.9	67.9	-11.0
SimpleQA-Verified	34.1	57.9	-23.8
MCPAtlas Public	~65	73.6	-8.6

Lectura: El gap es consistente de 1-3 puntos en tareas de conocimiento y coding básico. Pero se abre a 8-24 puntos en factual recall y tool use multi-step. Flash no es un modelo de segunda — es competitivo en la mayoría de tareas, pero no sustituye a Pro en agentes complejos.

“V4-Flash-Max alcanza rendimiento comparable a Pro con un thinking budget mayor, aunque su escala menor lo sitúa por detrás en recall factual y workflows agentic complejos.” — DeepSeek (model card oficial)

Benchmarks: capacidades agentic

Benchmark	V4-Pro	GPT-5.4	Claude Opus 4.6	Gemini-3.1-Pro
SWE-Verified	80.6	N/R	80.8	80.6
Terminal-Bench 2.0	67.9	75.1	65.4	68.5
MCPAtlas Public	73.6	67.2	73.8	69.2
Toolathlon	51.8	54.6	47.2	48.8
BrowseComp	83.4	—	83.7	85.9

V4-Pro empata a Claude en SWE-Verified y supera a GPT-5.4 en MCPAtlas. Pero GPT-5.4 le gana en Terminal-Bench (tool use secuencial) y Toolathlon (uso general de herramientas). Para agentes que ejecutan 10+ tool calls en workflows largos, GPT-5.4 sigue siendo superior en fiabilidad.

Pricing: la historia completa

Precios por 1M tokens

Modelo	Input (miss)	Input (hit)	Output
V4-Flash	$0.14	$0.028	$0.28
V4-Pro	$1.74	$0.145	$3.48
V4-Pro 🔥 promo 75%	$0.435	$0.036	$0.87
GPT-5.4	$2.50	—	$15.00
Claude Opus 4.6	$5.00	—	$25.00
Gemini-3.1-Pro	$1.25	—	$5.00

Promoción activa: V4-Pro con 75% de descuento hasta el 5 de mayo de 2026, 15:59 UTC. Fuente: tweet oficial de DeepSeek.

Coste efectivo con cache hits

Con un cache hit ratio del 65-70% (típico en workloads conversacionales):

V4-Flash: ~$0.06/M input efectivo
V4-Pro (promo): ~$0.18/M input efectivo

Eso sitúa a V4-Flash como el modelo más barato del mercado para tareas generales, por amplio margen.

Descuento off-peak

DeepSeek aplica un 50% adicional durante horario nocturno de Beijing (~23:00-07:00 Beijing = ~15:00-23:00 UTC). Se aplica automáticamente, sin cambios en el código.

Integraciones agentic

V4-Pro incluye adaptadores pre-ajustados para Claude Code, OpenClaw, OpenCode y CodeBuddy — basta cambiar la base URL para usarlo como drop-in replacement.

Detalles de implementación:

Cuando DeepSeek detecta una petición de Claude Code u OpenCode, el thinking effort auto-escala a max sin intervención del usuario
Soporta hasta 128 function calls en paralelo
Tres modos de razonamiento vía el parámetro reasoning_effort: non-think (rápido, sin cadena), think high (análisis moderado), think max (cadena de pensamiento profunda)

⚠️ Nota práctica: El auto-escalado a max thinking consume significativamente más tokens. Si controlas costes, es mejor setear reasoning_effort explícitamente en lugar de depender del auto-detect.

Debilidades honestas

No todo es perfecto. Estos son los problemas reales que encontré:

Solo texto. Sin visión ni multimodalidad. Si tus agentes analizan imágenes, screenshots o documentos escaneados, V4 no sirve.
Lento. 36.9 tok/s en V4-Pro, significativamente por debajo de la media de la categoría (~57 tok/s). Según Artificial Analysis, está en el percentil 42 en velocidad. Para agentes interactivos donde la latencia importa, es un problema.
Muy verboso. Generó 190M tokens en las evaluaciones de Artificial Analysis — 4.4x la media de la categoría (43M). Eso infla el coste real por debajo de lo que sugiere el pricing por token. Un modelo que genera 4x más tokens por respuesta no es 4x más barato en la práctica.
Un solo provider API. Solo está disponible a través de la API first-party de DeepSeek. Si su infraestructura cae, no hay fallback. Para workloads en producción, eso es un riesgo real.
Auto-escalado silencioso. El thinking effort sube a max automáticamente con Claude Code/OpenCode. Más tokens, más lento, más caro — sin aviso.

¿Cuándo usar cada variante?

V4-Pro tiene sentido cuando

Haces coding pesado (refactoring multi-fichero, debugging complejo) y quieres frontier quality sin pagar precios de Claude/GPT
Ejecutas agentes con 10+ tool calls en workflows secuenciales
Necesitas 1M tokens de contexto sin sobrecoste
La promo del 75% sigue activa (hasta 5 mayo 2026)
El budget lo permite y la latencia no es crítica

V4-Flash tiene sentido cuando

Tienes alto volumen y necesitas controlar costes agresivamente
Las tareas son generales: QA, resúmenes, clasificación, code completion simple, code review
Quieres un baseline sólido para routing inteligente entre modelos
La latencia no es el factor decisivo

Busca alternativas cuando

Necesitas multimodalidad (visión, audio) → Gemini-3.1-Pro o Claude Opus
La velocidad de respuesta es crítica → GPT-5.4 o Claude Sonnet
Quieres provider diversity y fallback → Claude + GPT combinados
Las tareas requieren factual recall de alta precisión → Gemini-3.1-Pro (SimpleQA 75.6 vs 57.9 de V4-Pro)

Metodología

Este análisis se basa en:

Model card oficial de DeepSeek V4-Pro y V4-Flash en Hugging Face
Benchmarks públicos de los papers de DeepSeek, reproducidos por terceros
Artificial Analysis Intelligence Index v4.0 para rankings comparativos de calidad, velocidad y precio
Pricing oficial de la API de DeepSeek, incluyendo la promo del 75% verificada en el tweet oficial
Posts técnicos de Lushbinary, DataCamp y OfficeChai como fuentes secundarias

Conclusión

DeepSeek V4-Pro es, según Artificial Analysis, el #2 en inteligencia entre 76 modelos comparables. Es el mejor modelo open-weight en coding por margen claro. Y cuesta entre 7x y 90x menos que los modelos cerrados equivalentes, dependiendo de si comparas con Pro o Flash.

V4-Flash a $0.14/M input es probablemente el modelo con mejor ratio calidad/precio del mercado para tareas generales.

El trade-off es claro: rendimiento frontier a precio de mid-range, pero lento, verboso y solo texto. Para agentes que necesitan latencia baja o procesamiento multimodal, los modelos de Anthropic, OpenAI y Google siguen siendo superiores.

La pregunta ya no es si V4 es “lo bastante bueno”. Es si puedes permitirte no usarlo.

Fuentes: Model card DeepSeek V4-Pro (Hugging Face), Pricing oficial DeepSeek, Artificial Analysis — V4-Pro, Lushbinary — V4 Pro vs Flash, OfficeChai — Benchmarks completos