GPT Diffusion

Open weights vs closed models: cuándo compensa cada uno

2026-04-29 · Devs #open-weights#frontier-models#open-source#costes#privacidad

TL;DR

  • Closed/frontier gana en razonamiento complejo y consistencia. Para tareas donde importa la calidad, sigue siendo la mejor opción.
  • Open weights gana en coste, privacidad, latencia y control. Para la mayoría de tareas de producción, es suficiente.
  • La brecha se ha cerrado mucho en 2026. DeepSeek V4 y Qwen 3 compiten con GPT-5-class en muchos benchmarks.
  • La decisión no es binaria: usa routing para enviar cada tarea al modelo adecuado.

El estado en mayo 2026

Hace un año, la brecha entre open y closed era abismal. Hoy:

  • DeepSeek V4 (open weights) puntúa cerca de GPT-5.4 en coding y razonamiento.
  • Llama 4 (open weights, Meta) tiene ventanas de contexto de hasta 10M tokens.
  • Qwen 3 (open weights, Alibaba) lidera en multilingüe y razonamiento.

Los modelos closed (GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro) siguen ganando en benchmarks de razonamiento, pero el margen se reduce cada trimestre.

Cuándo elegir modelos closed

1. Razonamiento complejo

Tareas que requieren chains-of-thought largas, multi-step reasoning, o lógica no trivial:

  • Análisis legal o médico con alta precisión requerida.
  • Matemáticas competitivas o verificación formal.
  • Planificación multi-paso con restricciones complejas.

Por qué: Los modelos frontier tienen más capacidad de razonamiento. En GPQA Diamond y SWE-bench Verified, los mejores closed models superan a los mejores open weights por 5-15 puntos.

2. Consistencia a escala

Cuando necesitas que el modelo responda igual 10,000 veces:

  • Clasificación de contenido en producción.
  • Extracción estructurada de datos.
  • Generación de respuestas con formato estricto.

Por qué: Los modelos closed tienden a ser más predecibles en instrucción-following. Menos varianza = menos errores en producción.

3. Multimodal avanzado

Audio, video, imágenes complejas:

  • Análisis de video con Gemini.
  • Generación de imágenes con GPT-5.
  • Audio en tiempo real con GPT-4o-realtime.

Por qué: Los modelos open weights están años luz en multimodal. Llama 4 tiene capacidades básicas de visión, pero nada comparado con Gemini 3.1 Pro.

4. Tool use y agentes complejos

Agentes que necesitan function calling robusto:

  • Claude con MCP.
  • GPT con function calling.
  • Gemini con grounding.

Por qué: Los modelos closed tienen mejor entrenamiento en tool use. Llaman funciones correctamente más veces, formatean parámetros mejor, y manejan errores mejor.

Cuándo elegir open weights

1. Coste

La diferencia de precio es brutal:

ModeloTipoPrecio/1M tokens (input)
GPT-5.5Closed$2.50
Claude Opus 4.7Closed$15.00
DeepSeek V4Open$0.27
Qwen 3 235BOpen$0.40 (Together)
Llama 4 MaverickOpen$0.20 (Fireworks)

DeepSeek V4 es 10x más barato que GPT-5.5. Si procesas millones de requests, la diferencia es de cientos a miles de dólares al mes.

2. Privacidad

Enviar datos a OpenAI, Anthropic o Google significa:

  • Tus datos pueden usarse para entrenamiento (depende del plan).
  • Estás sujeto a jurisdicción estadounidense.
  • No controlas quién accede a tus datos.

Con open weights self-hosted:

  • Tus datos nunca salen de tu infraestructura.
  • Cumples GDPR por diseño.
  • Sin risk de data leaks de terceros.

Casos donde esto importa: salud, finanzas, legal, datos de clientes sensibles, cualquier empresa europea con obligaciones GDPR serias.

3. Latencia

Self-hosted con GPU dedicada: latencias de 50-200ms. API de OpenAI/Anthropic: 500ms-3s (p95).

Para aplicaciones en tiempo real (chat, asistentes, autocomplete), la latencia del API es un cuello de botella.

4. Control y customización

Con open weights puedes:

  • Fine-tunar con tus datos sin enviarlos a nadie.
  • Cuantizar (Q4, Q8) para reducir coste y latencia.
  • Modificar el comportamiento con system prompts sin restricciones del proveedor.
  • Desplegar donde quieras (on-premise, edge, VPS barata).

5. Sin vendor lock-in

Si OpenAI sube precios mañana, no puedes hacer nada. Con open weights, cambias de hosting en minutos.

Self-hosting: ¿cuándo tiene sentido?

Tiene sentido cuando:

  • Procesas >10M tokens/día (el coste de GPU se amortiza).
  • Necesitas latencia <200ms consistentemente.
  • Tienes datos que no pueden salir de tu infraestructura.
  • Tienes un equipo de ML que puede mantener el serving.

NO tiene sentido cuando:

  • Procesas <1M tokens/día (más caro que API).
  • No tienes experiencia en infra ML.
  • Necesitas el mejor modelo del mercado (frontier >> open weights en la frontera).
  • Tu equipo es pequeño y prefiere optimizar tiempo que coste.

El approach híbrido: routing

La respuesta real no es “open o closed” sino “ambos, con routing inteligente”:

Request → Router (clasifica complejidad)
  ├→ Simple (80% de requests) → Open weights (DeepSeek V4, Qwen 3)
  │   Coste: $0.27/1M tokens
  └→ Complejo (20% de requests) → Frontier (GPT-5.5, Claude Sonnet)
      Coste: $2.50/1M tokens

Coste blended: ~$0.70/1M tokens. Ahorro del 70% vs solo frontier.

Benchmarks reales (mayo 2026)

BenchmarkMejor ClosedMejor OpenGap
GPQA DiamondGPT-5.5 (71.4%)DeepSeek V4 (63.2%)8.2 pts
SWE-bench VerifiedClaude Opus 4.7 (62.1%)DeepSeek V4 (55.8%)6.3 pts
MMLU-ProGPT-5.5 (82.3%)Qwen 3 235B (78.1%)4.2 pts
HumanEval+GPT-5.5 (95.1%)DeepSeek V4 (91.3%)3.8 pts
LiveCodeBenchClaude Opus 4.7 (48.7%)DeepSeek V4 (42.1%)6.6 pts

La brecha existe pero es manejable. Para la mayoría de tareas, un open-weight top-3 es “bastante bueno”.

Conclusión

Usa closed/frontier para: razonamiento difícil, consistencia crítica, multimodal avanzado, agentes complejos.

Usa open weights para: todo lo demás. Que es el 80% de las tareas.

La estrategia óptima: routing con fallback. Barato por defecto, premium cuando se necesita.

El debate open vs closed está muerto. La respuesta es “ambos, con criterio”.


Fuentes: artificialanalysis.ai, lmarena.ai, documentación de OpenAI/Anthropic/DeepSeek/Meta/Qwen, precios actualizados mayo 2026.

Lectura relacionada

Cargando comentarios...