Review: Llama 4 Maverick — el open-weight que compite con frontier
Metodología
Evaluación basada en uso vía API (NVIDIA NIM, Together AI) y self-hosting (2×A100):
- Benchmarks públicos: GPQA Diamond, MMLU-Pro, SWE-bench, Artificial Analysis
- Tests propios: coding, razonamiento, español, self-hosting
- Precios: API y self-hosting, mayo 2026
- Entorno: NIM API + self-hosted vLLM
Ficha técnica
- Proveedor: Meta
- Arquitectura: MoE 17B×16 expertos (~400B parámetros totales, 17B activos por token)
- Contexto: 1M tokens (con RoPE scaling)
- Licencia: Llama 4 Community License (uso comercial permitido con restricciones)
- Self-hosting: 2×A100 80GB (Q4), 4×A100 (FP16)
- Pricing API: ~$0.20/1M input, ~$0.80/1M output (Together, NIM)
Lo bueno
Eficiencia MoE — rendimiento por dollar imbatible
17B parámetros activos por token significa que Mavericks corre mucho más rápido que modelos densos de tamaño similar. En practice:
- Throughput: ~2x más tokens/segundo que un modelo denso de 70B
- VRAM: cabe en 2×A100 en Q4, o incluso 1×A100 en Q3
- Coste: ~$0.20/1M input es 10x más barato que GPT-5
Para producción a escala, esta eficiencia es difícil de ignorar.
Self-hosting real y accesible
A diferencia de los frontier propietarios, puedes self-hostear Llama 4 Maverick:
- Hardware mínimo: 2×A100 80GB para Q4, 4×A100 para FP16
- vLLM: soporte completo, streaming, batch
- Ollama: disponible para desarrollo local
- Quantización: GGUF, GPTQ, AWQ todos soportados
Para empresas con requisitos de privacidad o jurisdicción, esto es sin negociación.
Buen español
El español de Llama 4 Maverick es notablemente mejor que Llama 3. No perfecto (ocasionalmente usa construcciones calco del inglés), pero suficiente para contenido técnico, análisis y documentación en español.
Contexto de 1M tokens
Meta habilitó RoPE scaling a 1M tokens. En práctica, la calidad degrada después de ~256K, pero hasta ese punto es usable. Para la mayoría de casos de uso, 128-256K es suficiente.
Lo malo
No es frontier
Los números no mienten:
| Benchmark | Llama 4 Maverick | Claude Opus 4.7 | GPT-5 |
|---|---|---|---|
| GPQA Diamond | ~50% | 92% | ~88% |
| SWE-bench | ~58% | 83.5% | ~76% |
| MMLU-Pro | ~82% | ~90% | ~88% |
Llama 4 Maverick es un buen modelo, no un gran modelo. El gap con frontier es real, especialmente en razonamiento profundo y coding complejo.
Alucinaciones
Más propenso a alucinaciones que GPT-5 u Opus 4.7, especialmente en:
- Datos fácticos (cifras, fechas, nombres)
- Código con APIs específicas (inventa parámetros que no existen)
- Referencias académicas (cita papers que no existen)
Requiere más verificación manual que los frontier.
Contexto largo: calidad degradada
Los 1M tokens de contexto son más marketing que realidad práctica:
- <128K: calidad consistente
- 128K-256K: degradación ligera, aceptable
- 256K-512K: degradación notable, errores frecuentes
- >512K: no fiable para producción
Gemini 2.5 Pro maneja contexto largo mejor que Maverick.
Tool use básico
El function calling de Maverick es menos fiable que el de GPT-5 u Opus:
- A veces no sigue el schema correctamente
- Menos robusto con schemas anidados
- No soporta parallel tool calls tan bien como OpenAI
Self-hosting: costes reales
| Setup | Hardware | Coste/hora | Tokens/segundo |
|---|---|---|---|
| Q4 (recomendado) | 2×A100 80GB | ~$3.50/h | ~80 tok/s |
| FP16 | 4×A100 80GB | ~$7.00/h | ~60 tok/s |
| Q3 (mínimo) | 1×A100 80GB | ~$1.75/h | ~50 tok/s |
Break-even vs API: ~40M tokens/mes en Q4. Por debajo, la API es más barata. Por encima, self-hosting compensa.
Casos de uso
✅ Ideal para
- Clasificación y extracción a escala (10K+ documentos/día)
- Generación de contenido técnico en español (con revisión humana)
- Asistente de coding para tareas no críticas
- Self-hosting por privacidad o jurisdicción
- Routing de modelos como primer nivel (barato, bueno suficiente)
⚠️ Aceptable
- Razonamiento moderado (no frontier-level)
- Análisis de documentos (<256K tokens)
- Prototipado rápido
❌ No recomendado
- Decisiones críticas sin verificación humana
- Coding complejo de producción (usa Opus)
- Razonamiento profundo (usa GPT-5 u Opus)
- Contexto >256K sin validación (usa Gemini)
Comparación con alternativas
| Aspecto | Llama 4 Maverick | DeepSeek V4 Pro | GPT-5 |
|---|---|---|---|
| Open-weight | ✅ | ✅ | ❌ |
| Precio/1M input | ~$0.20 | $0.55 | $2.00 |
| Calidad razonamiento | ~50% GPQA | 52% GPQA | ~88% GPQA |
| Coding | ~58% SWE | ~65% SWE | ~76% SWE |
| Self-hosting VRAM | 2×A100 Q4 | 2×A100 Q4 | N/A |
| Español | Bueno | Bueno | Excelente |
Llama 4 Maverick compite más con DeepSeek V4 Pro que con los frontier. Son el mismo segmento: open-weight barato para trabajo pesado.
Veredicto
Rating: 4/5
Llama 4 Maverick no es frontier y no pretende serlo. Es el mejor modelo open-weight para producción real: eficiente, barato, self-hosteable, con español decente. Si necesitas máxima calidad, paga por Opus o GPT-5. Si necesitas escala a coste razonable, Maverick es tu modelo.
Recomendación: Úsalo como capa de trabajo pesado en tu routing. Clasificación, extracción, generación boilerplate, primer intento de coding. Reserva los frontier para lo que importa de verdad.
Lectura relacionada
- Guía de modelos LLM para devs en 2026
- Open weights vs closed: cuándo compensa
- DeepSeek V4 Pro vs GPT-5 vs Claude Opus 4.7
- Guía de costes LLM
Precios y benchmarks actualizados a mayo 2026.