Open weights vs closed models: cuándo compensa cada uno

TL;DR

Closed/frontier gana en razonamiento complejo y consistencia. Para tareas donde importa la calidad, sigue siendo la mejor opción.
Open weights gana en coste, privacidad, latencia y control. Para la mayoría de tareas de producción, es suficiente.
La brecha se ha cerrado mucho en 2026. DeepSeek V4 y Qwen 3 compiten con GPT-5-class en muchos benchmarks.
La decisión no es binaria: usa routing para enviar cada tarea al modelo adecuado.

El estado en mayo 2026

Hace un año, la brecha entre open y closed era abismal. Hoy:

DeepSeek V4 (open weights) puntúa cerca de GPT-5.4 en coding y razonamiento.
Llama 4 (open weights, Meta) tiene ventanas de contexto de hasta 10M tokens.
Qwen 3 (open weights, Alibaba) lidera en multilingüe y razonamiento.

Los modelos closed (GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro) siguen ganando en benchmarks de razonamiento, pero el margen se reduce cada trimestre.

Cuándo elegir modelos closed

1. Razonamiento complejo

Tareas que requieren chains-of-thought largas, multi-step reasoning, o lógica no trivial:

Análisis legal o médico con alta precisión requerida.
Matemáticas competitivas o verificación formal.
Planificación multi-paso con restricciones complejas.

Por qué: Los modelos frontier tienen más capacidad de razonamiento. En GPQA Diamond y SWE-bench Verified, los mejores closed models superan a los mejores open weights por 5-15 puntos.

2. Consistencia a escala

Cuando necesitas que el modelo responda igual 10,000 veces:

Clasificación de contenido en producción.
Extracción estructurada de datos.
Generación de respuestas con formato estricto.

Por qué: Los modelos closed tienden a ser más predecibles en instrucción-following. Menos varianza = menos errores en producción.

3. Multimodal avanzado

Audio, video, imágenes complejas:

Análisis de video con Gemini.
Generación de imágenes con GPT-5.
Audio en tiempo real con GPT-4o-realtime.

Por qué: Los modelos open weights están años luz en multimodal. Llama 4 tiene capacidades básicas de visión, pero nada comparado con Gemini 3.1 Pro.

4. Tool use y agentes complejos

Agentes que necesitan function calling robusto:

Claude con MCP.
GPT con function calling.
Gemini con grounding.

Por qué: Los modelos closed tienen mejor entrenamiento en tool use. Llaman funciones correctamente más veces, formatean parámetros mejor, y manejan errores mejor.

Cuándo elegir open weights

1. Coste

La diferencia de precio es brutal:

Modelo	Tipo	Precio/1M tokens (input)
GPT-5.5	Closed	$2.50
Claude Opus 4.7	Closed	$15.00
DeepSeek V4	Open	$0.27
Qwen 3 235B	Open	$0.40 (Together)
Llama 4 Maverick	Open	$0.20 (Fireworks)

DeepSeek V4 es 10x más barato que GPT-5.5. Si procesas millones de requests, la diferencia es de cientos a miles de dólares al mes.

2. Privacidad

Enviar datos a OpenAI, Anthropic o Google significa:

Tus datos pueden usarse para entrenamiento (depende del plan).
Estás sujeto a jurisdicción estadounidense.
No controlas quién accede a tus datos.

Con open weights self-hosted:

Tus datos nunca salen de tu infraestructura.
Cumples GDPR por diseño.
Sin risk de data leaks de terceros.

Casos donde esto importa: salud, finanzas, legal, datos de clientes sensibles, cualquier empresa europea con obligaciones GDPR serias.

3. Latencia

Self-hosted con GPU dedicada: latencias de 50-200ms. API de OpenAI/Anthropic: 500ms-3s (p95).

Para aplicaciones en tiempo real (chat, asistentes, autocomplete), la latencia del API es un cuello de botella.

4. Control y customización

Con open weights puedes:

Fine-tunar con tus datos sin enviarlos a nadie.
Cuantizar (Q4, Q8) para reducir coste y latencia.
Modificar el comportamiento con system prompts sin restricciones del proveedor.
Desplegar donde quieras (on-premise, edge, VPS barata).

5. Sin vendor lock-in

Si OpenAI sube precios mañana, no puedes hacer nada. Con open weights, cambias de hosting en minutos.

Self-hosting: ¿cuándo tiene sentido?

Tiene sentido cuando:

Procesas >10M tokens/día (el coste de GPU se amortiza).
Necesitas latencia <200ms consistentemente.
Tienes datos que no pueden salir de tu infraestructura.
Tienes un equipo de ML que puede mantener el serving.

NO tiene sentido cuando:

Procesas <1M tokens/día (más caro que API).
No tienes experiencia en infra ML.
Necesitas el mejor modelo del mercado (frontier >> open weights en la frontera).
Tu equipo es pequeño y prefiere optimizar tiempo que coste.

El approach híbrido: routing

La respuesta real no es “open o closed” sino “ambos, con routing inteligente”:

Request → Router (clasifica complejidad)
  ├→ Simple (80% de requests) → Open weights (DeepSeek V4, Qwen 3)
  │   Coste: $0.27/1M tokens
  └→ Complejo (20% de requests) → Frontier (GPT-5.5, Claude Sonnet)
      Coste: $2.50/1M tokens

Coste blended: ~$0.70/1M tokens. Ahorro del 70% vs solo frontier.

Benchmarks reales (mayo 2026)

Benchmark	Mejor Closed	Mejor Open	Gap
GPQA Diamond	GPT-5.5 (71.4%)	DeepSeek V4 (63.2%)	8.2 pts
SWE-bench Verified	Claude Opus 4.7 (62.1%)	DeepSeek V4 (55.8%)	6.3 pts
MMLU-Pro	GPT-5.5 (82.3%)	Qwen 3 235B (78.1%)	4.2 pts
HumanEval+	GPT-5.5 (95.1%)	DeepSeek V4 (91.3%)	3.8 pts
LiveCodeBench	Claude Opus 4.7 (48.7%)	DeepSeek V4 (42.1%)	6.6 pts

La brecha existe pero es manejable. Para la mayoría de tareas, un open-weight top-3 es “bastante bueno”.

Conclusión

Usa closed/frontier para: razonamiento difícil, consistencia crítica, multimodal avanzado, agentes complejos.

Usa open weights para: todo lo demás. Que es el 80% de las tareas.

La estrategia óptima: routing con fallback. Barato por defecto, premium cuando se necesita.

El debate open vs closed está muerto. La respuesta es “ambos, con criterio”.

Fuentes: artificialanalysis.ai, lmarena.ai, documentación de OpenAI/Anthropic/DeepSeek/Meta/Qwen, precios actualizados mayo 2026.