Item: GPT-5
Rating: 4
Author: GPT Diffusion

TL;DR

GPT-5 es el modelo generalista más equilibrado de 2026.
No lidera ningún benchmark individual, pero está top-3 en todos.
Precio justo para lo que ofrece. El ecosistema (API, tools, plugins) compensa la falta de excelencia absoluta.
Rating: 4/5 — excelente, pero ya no es indiscutiblemente el rey.

Contexto

GPT-5 se lanzó en enero 2026 como sucesor de GPT-4o. OpenAI lo posicionó como “el modelo que hace de todo bien”. Y cumplieron: es consistente, fiable, y rara vez decepciona. Pero el mercado ha cambiado. Ya no es el único juego en town.

Para quién es: Devs que necesitan un modelo fiable para tareas variadas sin optimizar por un caso de uso específico. Empresas que quieren un solo proveedor para todo.

Para quién NO es: Quienes buscan el mejor modelo de coding (Claude Opus), el más barato (DeepSeek), o el mejor razonamiento puro (GPT-5.5).

Metodología

Período de evaluación: 6 semanas (marzo-abril 2026)

Criterios de evaluación:

Calidad de razonamiento (GPQA Diamond, lógica multi-step)
Coding (SWE-bench, LiveCodeBench, proyectos reales)
Instruction following (IFEval, formato estructurado)
Tool use / function calling (precisión, formato)
Coste-eficiencia (precio vs calidad)

Entorno de pruebas:

API de OpenAI (gpt-5, gpt-5-turbo)
ChatGPT Pro ($20/mes)
Tests con prompts estándar + proyectos propios
Comparación directa con Claude 4 Opus, DeepSeek V4, Gemini 2.5 Pro

Limitaciones: No tuve acceso a fine-tuning ni batch API. Tests basados en pay-per-token. Todos los benchmarks de terceros referenciados son públicos.

Resultados

Criterio	Resultado	Observaciones
GPQA Diamond	68.3%	Top-3, pero Claude Opus lidera
SWE-bench Verified	55.2%	Sólido, no excepcional
LiveCodeBench	44.1%	Bueno, Claude Opus 48.7%
MMLU-Pro	81.7%	Competitivo
IFEval	89.2%	Excelente instruction following
Latencia (p50)	850ms	Acceptable
Latencia (p95)	2.8s	Puede ser lento en horas pico
Rate limits	500 RPM (Tier 1)	Suficiente para la mayoría

Fortalezas

Versatilidad. GPT-5 es el modelo más equilibrado. No necesitas pensar “¿es este modelo bueno para X tarea?” — la respuesta casi siempre es “sí, suficientemente bueno”.

Ecosistema. OpenAI tiene el ecosistema más maduro: function calling robusto, structured outputs (JSON mode), vision, audio, embeddings, fine-tuning, batch API, assistants API. Si necesitas algo, probablemente lo tienen.

Instruction following. IFEval 89.2% lo demuestra. GPT-5 sigue instrucciones complejas con precisión. Formatos JSON, tablas, límites de longitud — rara vez falla.

Tool use fiable. Function calling funciona consistentemente. Parámetros bien formateados, errores manejables, y JSON schema strict mode disponible.

Documentación y SDKs. La documentación de OpenAI es la mejor del mercado. SDKs oficiales para Python, TypeScript, Go. Ejemplos que funcionan.

Debilidades

No lidera en nada. Claude Opus gana en coding. DeepSeek gana en coste. Gemini gana en multimodal. GPT-5 es segundo o tercero en todo.

Precio. $2.50/$10.00 por 1M tokens (input/output). No es caro, pero DeepSeek V4 ofrece 90% de la calidad a 10% del precio.

P95 latency. 2.8 segundos en horas pico. Para aplicaciones en tiempo real, es un problema. GPT-5-turbo es más rápido pero pierde calidad.

Context window. 128K tokens. Correcto, pero Llama 4 Scout ofrece 10M y Gemini 2.5 Pro ofrece 1M.

Casos de uso recomendados

✅ API generalista: Un modelo para chat, clasificación, extracción, resumen — sin optimizar
✅ Function calling: Aplicaciones que dependen de tool use fiable
✅ Structured outputs: Cuando necesitas JSON estricto
✅ Prototipado: Si necesitas ir rápido y no quieres optimizar modelos
❌ Coding hardcore: Claude Opus es mejor
❌ Coste mínimo: DeepSeek V4 o Gemini Flash son más baratos
❌ Contexto masivo: Usa Gemini 2.5 Pro o Llama 4 Scout

Alternativas

Modelo	Ventaja sobre GPT-5	Desventaja vs GPT-5
Claude 4 Opus	Mejor coding y razonamiento	Más caro ($15/$75)
DeepSeek V4	10x más barato, calidad cercana	Tool use menos fiable
Gemini 2.5 Pro	1M context, multimodal mejor	Ecosistema menos maduro
GPT-5-turbo	Más rápido, más barato	Menor calidad
GPT-5.5	Mejor razonamiento	Más caro, más lento

Veredicto final

Usa GPT-5 si necesitas un modelo fiable para tareas variadas y no quieres optimizar por caso de uso. Es el cuchillo suizo de los LLMs.

Evita GPT-5 si tienes un caso de uso específico donde otro modelo destaca (coding → Claude, coste → DeepSeek, contexto → Gemini).

Rating: 4/5. Excelente, versátil, fiable. Pero ya no es indiscutiblemente el mejor. El mercado ha madurado y GPT-5 es “muy bueno” en lugar de “el mejor”. Para muchos, eso es suficiente.

Preguntas frecuentes

¿GPT-5 o GPT-5-turbo? Turbo es 2x más rápido y 40% más barato, con ~5% menos de calidad. Para chat y tareas rutinarias, turbo. Para razonamiento y coding, GPT-5 completo.

¿Hay fine-tuning? Sí, OpenAI ofrece fine-tuning para GPT-5. Útil para tareas de dominio específico con 100+ ejemplos. Coste: $100 por 1M training tokens.

¿Funciona en español? Sí, excelente. No es su idioma principal pero la calidad es alta. Para español técnico, está al nivel de GPT-5 en inglés.

¿Batch API disponible? Sí, con 50% de descuento y 24h de latencia. Ideal para procesamiento asíncrono.

Fuentes: OpenAI API docs, Artificial Analysis (mayo 2026), LMSYS Chatbot Arena, tests propios con prompts estándar.

Review: GPT-5