Item: Llama 4 Maverick
Rating: 4
Author: GPT Diffusion

Metodología

Evaluación basada en uso vía API (NVIDIA NIM, Together AI) y self-hosting (2×A100):

Benchmarks públicos: GPQA Diamond, MMLU-Pro, SWE-bench, Artificial Analysis
Tests propios: coding, razonamiento, español, self-hosting
Precios: API y self-hosting, mayo 2026
Entorno: NIM API + self-hosted vLLM

Ficha técnica

Proveedor: Meta
Arquitectura: MoE 17B×16 expertos (~400B parámetros totales, 17B activos por token)
Contexto: 1M tokens (con RoPE scaling)
Licencia: Llama 4 Community License (uso comercial permitido con restricciones)
Self-hosting: 2×A100 80GB (Q4), 4×A100 (FP16)
Pricing API: ~$0.20/1M input, ~$0.80/1M output (Together, NIM)

Lo bueno

Eficiencia MoE — rendimiento por dollar imbatible

17B parámetros activos por token significa que Mavericks corre mucho más rápido que modelos densos de tamaño similar. En practice:

Throughput: ~2x más tokens/segundo que un modelo denso de 70B
VRAM: cabe en 2×A100 en Q4, o incluso 1×A100 en Q3
Coste: ~$0.20/1M input es 10x más barato que GPT-5

Para producción a escala, esta eficiencia es difícil de ignorar.

Self-hosting real y accesible

A diferencia de los frontier propietarios, puedes self-hostear Llama 4 Maverick:

Hardware mínimo: 2×A100 80GB para Q4, 4×A100 para FP16
vLLM: soporte completo, streaming, batch
Ollama: disponible para desarrollo local
Quantización: GGUF, GPTQ, AWQ todos soportados

Para empresas con requisitos de privacidad o jurisdicción, esto es sin negociación.

Buen español

El español de Llama 4 Maverick es notablemente mejor que Llama 3. No perfecto (ocasionalmente usa construcciones calco del inglés), pero suficiente para contenido técnico, análisis y documentación en español.

Contexto de 1M tokens

Meta habilitó RoPE scaling a 1M tokens. En práctica, la calidad degrada después de ~256K, pero hasta ese punto es usable. Para la mayoría de casos de uso, 128-256K es suficiente.

Lo malo

No es frontier

Los números no mienten:

Benchmark	Llama 4 Maverick	Claude Opus 4.7	GPT-5
GPQA Diamond	~50%	92%	~88%
SWE-bench	~58%	83.5%	~76%
MMLU-Pro	~82%	~90%	~88%

Llama 4 Maverick es un buen modelo, no un gran modelo. El gap con frontier es real, especialmente en razonamiento profundo y coding complejo.

Alucinaciones

Más propenso a alucinaciones que GPT-5 u Opus 4.7, especialmente en:

Datos fácticos (cifras, fechas, nombres)
Código con APIs específicas (inventa parámetros que no existen)
Referencias académicas (cita papers que no existen)

Requiere más verificación manual que los frontier.

Contexto largo: calidad degradada

Los 1M tokens de contexto son más marketing que realidad práctica:

<128K: calidad consistente
128K-256K: degradación ligera, aceptable
256K-512K: degradación notable, errores frecuentes
>512K: no fiable para producción

Gemini 2.5 Pro maneja contexto largo mejor que Maverick.

Tool use básico

El function calling de Maverick es menos fiable que el de GPT-5 u Opus:

A veces no sigue el schema correctamente
Menos robusto con schemas anidados
No soporta parallel tool calls tan bien como OpenAI

Self-hosting: costes reales

Setup	Hardware	Coste/hora	Tokens/segundo
Q4 (recomendado)	2×A100 80GB	~$3.50/h	~80 tok/s
FP16	4×A100 80GB	~$7.00/h	~60 tok/s
Q3 (mínimo)	1×A100 80GB	~$1.75/h	~50 tok/s

Break-even vs API: ~40M tokens/mes en Q4. Por debajo, la API es más barata. Por encima, self-hosting compensa.

Casos de uso

✅ Ideal para

Clasificación y extracción a escala (10K+ documentos/día)
Generación de contenido técnico en español (con revisión humana)
Asistente de coding para tareas no críticas
Self-hosting por privacidad o jurisdicción
Routing de modelos como primer nivel (barato, bueno suficiente)

⚠️ Aceptable

Razonamiento moderado (no frontier-level)
Análisis de documentos (<256K tokens)
Prototipado rápido

❌ No recomendado

Decisiones críticas sin verificación humana
Coding complejo de producción (usa Opus)
Razonamiento profundo (usa GPT-5 u Opus)
Contexto >256K sin validación (usa Gemini)

Comparación con alternativas

Aspecto	Llama 4 Maverick	DeepSeek V4 Pro	GPT-5
Open-weight	✅	✅	❌
Precio/1M input	~$0.20	$0.55	$2.00
Calidad razonamiento	~50% GPQA	52% GPQA	~88% GPQA
Coding	~58% SWE	~65% SWE	~76% SWE
Self-hosting VRAM	2×A100 Q4	2×A100 Q4	N/A
Español	Bueno	Bueno	Excelente

Llama 4 Maverick compite más con DeepSeek V4 Pro que con los frontier. Son el mismo segmento: open-weight barato para trabajo pesado.

Veredicto

Rating: 4/5

Llama 4 Maverick no es frontier y no pretende serlo. Es el mejor modelo open-weight para producción real: eficiente, barato, self-hosteable, con español decente. Si necesitas máxima calidad, paga por Opus o GPT-5. Si necesitas escala a coste razonable, Maverick es tu modelo.

Recomendación: Úsalo como capa de trabajo pesado en tu routing. Clasificación, extracción, generación boilerplate, primer intento de coding. Reserva los frontier para lo que importa de verdad.

Lectura relacionada

Precios y benchmarks actualizados a mayo 2026.

Review: Llama 4 Maverick — el open-weight que compite con frontier