GPT Diffusion

Review: Llama 4 Maverick — el open-weight que compite con frontier

2026-05-06 · ⭐ 4/5 · Llama 4 Maverick

Metodología

Evaluación basada en uso vía API (NVIDIA NIM, Together AI) y self-hosting (2×A100):

  • Benchmarks públicos: GPQA Diamond, MMLU-Pro, SWE-bench, Artificial Analysis
  • Tests propios: coding, razonamiento, español, self-hosting
  • Precios: API y self-hosting, mayo 2026
  • Entorno: NIM API + self-hosted vLLM

Ficha técnica

  • Proveedor: Meta
  • Arquitectura: MoE 17B×16 expertos (~400B parámetros totales, 17B activos por token)
  • Contexto: 1M tokens (con RoPE scaling)
  • Licencia: Llama 4 Community License (uso comercial permitido con restricciones)
  • Self-hosting: 2×A100 80GB (Q4), 4×A100 (FP16)
  • Pricing API: ~$0.20/1M input, ~$0.80/1M output (Together, NIM)

Lo bueno

Eficiencia MoE — rendimiento por dollar imbatible

17B parámetros activos por token significa que Mavericks corre mucho más rápido que modelos densos de tamaño similar. En practice:

  • Throughput: ~2x más tokens/segundo que un modelo denso de 70B
  • VRAM: cabe en 2×A100 en Q4, o incluso 1×A100 en Q3
  • Coste: ~$0.20/1M input es 10x más barato que GPT-5

Para producción a escala, esta eficiencia es difícil de ignorar.

Self-hosting real y accesible

A diferencia de los frontier propietarios, puedes self-hostear Llama 4 Maverick:

  • Hardware mínimo: 2×A100 80GB para Q4, 4×A100 para FP16
  • vLLM: soporte completo, streaming, batch
  • Ollama: disponible para desarrollo local
  • Quantización: GGUF, GPTQ, AWQ todos soportados

Para empresas con requisitos de privacidad o jurisdicción, esto es sin negociación.

Buen español

El español de Llama 4 Maverick es notablemente mejor que Llama 3. No perfecto (ocasionalmente usa construcciones calco del inglés), pero suficiente para contenido técnico, análisis y documentación en español.

Contexto de 1M tokens

Meta habilitó RoPE scaling a 1M tokens. En práctica, la calidad degrada después de ~256K, pero hasta ese punto es usable. Para la mayoría de casos de uso, 128-256K es suficiente.


Lo malo

No es frontier

Los números no mienten:

BenchmarkLlama 4 MaverickClaude Opus 4.7GPT-5
GPQA Diamond~50%92%~88%
SWE-bench~58%83.5%~76%
MMLU-Pro~82%~90%~88%

Llama 4 Maverick es un buen modelo, no un gran modelo. El gap con frontier es real, especialmente en razonamiento profundo y coding complejo.

Alucinaciones

Más propenso a alucinaciones que GPT-5 u Opus 4.7, especialmente en:

  • Datos fácticos (cifras, fechas, nombres)
  • Código con APIs específicas (inventa parámetros que no existen)
  • Referencias académicas (cita papers que no existen)

Requiere más verificación manual que los frontier.

Contexto largo: calidad degradada

Los 1M tokens de contexto son más marketing que realidad práctica:

  • <128K: calidad consistente
  • 128K-256K: degradación ligera, aceptable
  • 256K-512K: degradación notable, errores frecuentes
  • >512K: no fiable para producción

Gemini 2.5 Pro maneja contexto largo mejor que Maverick.

Tool use básico

El function calling de Maverick es menos fiable que el de GPT-5 u Opus:

  • A veces no sigue el schema correctamente
  • Menos robusto con schemas anidados
  • No soporta parallel tool calls tan bien como OpenAI

Self-hosting: costes reales

SetupHardwareCoste/horaTokens/segundo
Q4 (recomendado)2×A100 80GB~$3.50/h~80 tok/s
FP164×A100 80GB~$7.00/h~60 tok/s
Q3 (mínimo)1×A100 80GB~$1.75/h~50 tok/s

Break-even vs API: ~40M tokens/mes en Q4. Por debajo, la API es más barata. Por encima, self-hosting compensa.


Casos de uso

✅ Ideal para

  • Clasificación y extracción a escala (10K+ documentos/día)
  • Generación de contenido técnico en español (con revisión humana)
  • Asistente de coding para tareas no críticas
  • Self-hosting por privacidad o jurisdicción
  • Routing de modelos como primer nivel (barato, bueno suficiente)

⚠️ Aceptable

  • Razonamiento moderado (no frontier-level)
  • Análisis de documentos (<256K tokens)
  • Prototipado rápido

❌ No recomendado

  • Decisiones críticas sin verificación humana
  • Coding complejo de producción (usa Opus)
  • Razonamiento profundo (usa GPT-5 u Opus)
  • Contexto >256K sin validación (usa Gemini)

Comparación con alternativas

AspectoLlama 4 MaverickDeepSeek V4 ProGPT-5
Open-weight
Precio/1M input~$0.20$0.55$2.00
Calidad razonamiento~50% GPQA52% GPQA~88% GPQA
Coding~58% SWE~65% SWE~76% SWE
Self-hosting VRAM2×A100 Q42×A100 Q4N/A
EspañolBuenoBuenoExcelente

Llama 4 Maverick compite más con DeepSeek V4 Pro que con los frontier. Son el mismo segmento: open-weight barato para trabajo pesado.


Veredicto

Rating: 4/5

Llama 4 Maverick no es frontier y no pretende serlo. Es el mejor modelo open-weight para producción real: eficiente, barato, self-hosteable, con español decente. Si necesitas máxima calidad, paga por Opus o GPT-5. Si necesitas escala a coste razonable, Maverick es tu modelo.

Recomendación: Úsalo como capa de trabajo pesado en tu routing. Clasificación, extracción, generación boilerplate, primer intento de coding. Reserva los frontier para lo que importa de verdad.


Lectura relacionada


Precios y benchmarks actualizados a mayo 2026.

Veredicto: El mejor open-weight para producción. No es frontier, pero es el 80% de la calidad al 10% del precio.
#llama#meta#open-weights#review#moe#self-hosting