Open weights vs closed models: cuándo compensa cada uno
TL;DR
- Closed/frontier gana en razonamiento complejo y consistencia. Para tareas donde importa la calidad, sigue siendo la mejor opción.
- Open weights gana en coste, privacidad, latencia y control. Para la mayoría de tareas de producción, es suficiente.
- La brecha se ha cerrado mucho en 2026. DeepSeek V4 y Qwen 3 compiten con GPT-5-class en muchos benchmarks.
- La decisión no es binaria: usa routing para enviar cada tarea al modelo adecuado.
El estado en mayo 2026
Hace un año, la brecha entre open y closed era abismal. Hoy:
- DeepSeek V4 (open weights) puntúa cerca de GPT-5.4 en coding y razonamiento.
- Llama 4 (open weights, Meta) tiene ventanas de contexto de hasta 10M tokens.
- Qwen 3 (open weights, Alibaba) lidera en multilingüe y razonamiento.
Los modelos closed (GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro) siguen ganando en benchmarks de razonamiento, pero el margen se reduce cada trimestre.
Cuándo elegir modelos closed
1. Razonamiento complejo
Tareas que requieren chains-of-thought largas, multi-step reasoning, o lógica no trivial:
- Análisis legal o médico con alta precisión requerida.
- Matemáticas competitivas o verificación formal.
- Planificación multi-paso con restricciones complejas.
Por qué: Los modelos frontier tienen más capacidad de razonamiento. En GPQA Diamond y SWE-bench Verified, los mejores closed models superan a los mejores open weights por 5-15 puntos.
2. Consistencia a escala
Cuando necesitas que el modelo responda igual 10,000 veces:
- Clasificación de contenido en producción.
- Extracción estructurada de datos.
- Generación de respuestas con formato estricto.
Por qué: Los modelos closed tienden a ser más predecibles en instrucción-following. Menos varianza = menos errores en producción.
3. Multimodal avanzado
Audio, video, imágenes complejas:
- Análisis de video con Gemini.
- Generación de imágenes con GPT-5.
- Audio en tiempo real con GPT-4o-realtime.
Por qué: Los modelos open weights están años luz en multimodal. Llama 4 tiene capacidades básicas de visión, pero nada comparado con Gemini 3.1 Pro.
4. Tool use y agentes complejos
Agentes que necesitan function calling robusto:
- Claude con MCP.
- GPT con function calling.
- Gemini con grounding.
Por qué: Los modelos closed tienen mejor entrenamiento en tool use. Llaman funciones correctamente más veces, formatean parámetros mejor, y manejan errores mejor.
Cuándo elegir open weights
1. Coste
La diferencia de precio es brutal:
| Modelo | Tipo | Precio/1M tokens (input) |
|---|---|---|
| GPT-5.5 | Closed | $2.50 |
| Claude Opus 4.7 | Closed | $15.00 |
| DeepSeek V4 | Open | $0.27 |
| Qwen 3 235B | Open | $0.40 (Together) |
| Llama 4 Maverick | Open | $0.20 (Fireworks) |
DeepSeek V4 es 10x más barato que GPT-5.5. Si procesas millones de requests, la diferencia es de cientos a miles de dólares al mes.
2. Privacidad
Enviar datos a OpenAI, Anthropic o Google significa:
- Tus datos pueden usarse para entrenamiento (depende del plan).
- Estás sujeto a jurisdicción estadounidense.
- No controlas quién accede a tus datos.
Con open weights self-hosted:
- Tus datos nunca salen de tu infraestructura.
- Cumples GDPR por diseño.
- Sin risk de data leaks de terceros.
Casos donde esto importa: salud, finanzas, legal, datos de clientes sensibles, cualquier empresa europea con obligaciones GDPR serias.
3. Latencia
Self-hosted con GPU dedicada: latencias de 50-200ms. API de OpenAI/Anthropic: 500ms-3s (p95).
Para aplicaciones en tiempo real (chat, asistentes, autocomplete), la latencia del API es un cuello de botella.
4. Control y customización
Con open weights puedes:
- Fine-tunar con tus datos sin enviarlos a nadie.
- Cuantizar (Q4, Q8) para reducir coste y latencia.
- Modificar el comportamiento con system prompts sin restricciones del proveedor.
- Desplegar donde quieras (on-premise, edge, VPS barata).
5. Sin vendor lock-in
Si OpenAI sube precios mañana, no puedes hacer nada. Con open weights, cambias de hosting en minutos.
Self-hosting: ¿cuándo tiene sentido?
Tiene sentido cuando:
- Procesas >10M tokens/día (el coste de GPU se amortiza).
- Necesitas latencia <200ms consistentemente.
- Tienes datos que no pueden salir de tu infraestructura.
- Tienes un equipo de ML que puede mantener el serving.
NO tiene sentido cuando:
- Procesas <1M tokens/día (más caro que API).
- No tienes experiencia en infra ML.
- Necesitas el mejor modelo del mercado (frontier >> open weights en la frontera).
- Tu equipo es pequeño y prefiere optimizar tiempo que coste.
El approach híbrido: routing
La respuesta real no es “open o closed” sino “ambos, con routing inteligente”:
Request → Router (clasifica complejidad)
├→ Simple (80% de requests) → Open weights (DeepSeek V4, Qwen 3)
│ Coste: $0.27/1M tokens
└→ Complejo (20% de requests) → Frontier (GPT-5.5, Claude Sonnet)
Coste: $2.50/1M tokens
Coste blended: ~$0.70/1M tokens. Ahorro del 70% vs solo frontier.
Benchmarks reales (mayo 2026)
| Benchmark | Mejor Closed | Mejor Open | Gap |
|---|---|---|---|
| GPQA Diamond | GPT-5.5 (71.4%) | DeepSeek V4 (63.2%) | 8.2 pts |
| SWE-bench Verified | Claude Opus 4.7 (62.1%) | DeepSeek V4 (55.8%) | 6.3 pts |
| MMLU-Pro | GPT-5.5 (82.3%) | Qwen 3 235B (78.1%) | 4.2 pts |
| HumanEval+ | GPT-5.5 (95.1%) | DeepSeek V4 (91.3%) | 3.8 pts |
| LiveCodeBench | Claude Opus 4.7 (48.7%) | DeepSeek V4 (42.1%) | 6.6 pts |
La brecha existe pero es manejable. Para la mayoría de tareas, un open-weight top-3 es “bastante bueno”.
Conclusión
Usa closed/frontier para: razonamiento difícil, consistencia crítica, multimodal avanzado, agentes complejos.
Usa open weights para: todo lo demás. Que es el 80% de las tareas.
La estrategia óptima: routing con fallback. Barato por defecto, premium cuando se necesita.
El debate open vs closed está muerto. La respuesta es “ambos, con criterio”.
Fuentes: artificialanalysis.ai, lmarena.ai, documentación de OpenAI/Anthropic/DeepSeek/Meta/Qwen, precios actualizados mayo 2026.