GPT Diffusion

Review: GPT-5

2026-04-19 · ⭐ 4/5 · GPT-5

TL;DR

  • GPT-5 es el modelo generalista más equilibrado de 2026.
  • No lidera ningún benchmark individual, pero está top-3 en todos.
  • Precio justo para lo que ofrece. El ecosistema (API, tools, plugins) compensa la falta de excelencia absoluta.
  • Rating: 4/5 — excelente, pero ya no es indiscutiblemente el rey.

Contexto

GPT-5 se lanzó en enero 2026 como sucesor de GPT-4o. OpenAI lo posicionó como “el modelo que hace de todo bien”. Y cumplieron: es consistente, fiable, y rara vez decepciona. Pero el mercado ha cambiado. Ya no es el único juego en town.

Para quién es: Devs que necesitan un modelo fiable para tareas variadas sin optimizar por un caso de uso específico. Empresas que quieren un solo proveedor para todo.

Para quién NO es: Quienes buscan el mejor modelo de coding (Claude Opus), el más barato (DeepSeek), o el mejor razonamiento puro (GPT-5.5).

Metodología

Período de evaluación: 6 semanas (marzo-abril 2026)

Criterios de evaluación:

  1. Calidad de razonamiento (GPQA Diamond, lógica multi-step)
  2. Coding (SWE-bench, LiveCodeBench, proyectos reales)
  3. Instruction following (IFEval, formato estructurado)
  4. Tool use / function calling (precisión, formato)
  5. Coste-eficiencia (precio vs calidad)

Entorno de pruebas:

  • API de OpenAI (gpt-5, gpt-5-turbo)
  • ChatGPT Pro ($20/mes)
  • Tests con prompts estándar + proyectos propios
  • Comparación directa con Claude 4 Opus, DeepSeek V4, Gemini 2.5 Pro

Limitaciones: No tuve acceso a fine-tuning ni batch API. Tests basados en pay-per-token. Todos los benchmarks de terceros referenciados son públicos.

Resultados

CriterioResultadoObservaciones
GPQA Diamond68.3%Top-3, pero Claude Opus lidera
SWE-bench Verified55.2%Sólido, no excepcional
LiveCodeBench44.1%Bueno, Claude Opus 48.7%
MMLU-Pro81.7%Competitivo
IFEval89.2%Excelente instruction following
Latencia (p50)850msAcceptable
Latencia (p95)2.8sPuede ser lento en horas pico
Rate limits500 RPM (Tier 1)Suficiente para la mayoría

Fortalezas

Versatilidad. GPT-5 es el modelo más equilibrado. No necesitas pensar “¿es este modelo bueno para X tarea?” — la respuesta casi siempre es “sí, suficientemente bueno”.

Ecosistema. OpenAI tiene el ecosistema más maduro: function calling robusto, structured outputs (JSON mode), vision, audio, embeddings, fine-tuning, batch API, assistants API. Si necesitas algo, probablemente lo tienen.

Instruction following. IFEval 89.2% lo demuestra. GPT-5 sigue instrucciones complejas con precisión. Formatos JSON, tablas, límites de longitud — rara vez falla.

Tool use fiable. Function calling funciona consistentemente. Parámetros bien formateados, errores manejables, y JSON schema strict mode disponible.

Documentación y SDKs. La documentación de OpenAI es la mejor del mercado. SDKs oficiales para Python, TypeScript, Go. Ejemplos que funcionan.

Debilidades

No lidera en nada. Claude Opus gana en coding. DeepSeek gana en coste. Gemini gana en multimodal. GPT-5 es segundo o tercero en todo.

Precio. $2.50/$10.00 por 1M tokens (input/output). No es caro, pero DeepSeek V4 ofrece 90% de la calidad a 10% del precio.

P95 latency. 2.8 segundos en horas pico. Para aplicaciones en tiempo real, es un problema. GPT-5-turbo es más rápido pero pierde calidad.

Context window. 128K tokens. Correcto, pero Llama 4 Scout ofrece 10M y Gemini 2.5 Pro ofrece 1M.

Casos de uso recomendados

  • API generalista: Un modelo para chat, clasificación, extracción, resumen — sin optimizar
  • Function calling: Aplicaciones que dependen de tool use fiable
  • Structured outputs: Cuando necesitas JSON estricto
  • Prototipado: Si necesitas ir rápido y no quieres optimizar modelos
  • Coding hardcore: Claude Opus es mejor
  • Coste mínimo: DeepSeek V4 o Gemini Flash son más baratos
  • Contexto masivo: Usa Gemini 2.5 Pro o Llama 4 Scout

Alternativas

ModeloVentaja sobre GPT-5Desventaja vs GPT-5
Claude 4 OpusMejor coding y razonamientoMás caro ($15/$75)
DeepSeek V410x más barato, calidad cercanaTool use menos fiable
Gemini 2.5 Pro1M context, multimodal mejorEcosistema menos maduro
GPT-5-turboMás rápido, más baratoMenor calidad
GPT-5.5Mejor razonamientoMás caro, más lento

Veredicto final

Usa GPT-5 si necesitas un modelo fiable para tareas variadas y no quieres optimizar por caso de uso. Es el cuchillo suizo de los LLMs.

Evita GPT-5 si tienes un caso de uso específico donde otro modelo destaca (coding → Claude, coste → DeepSeek, contexto → Gemini).

Rating: 4/5. Excelente, versátil, fiable. Pero ya no es indiscutiblemente el mejor. El mercado ha madurado y GPT-5 es “muy bueno” en lugar de “el mejor”. Para muchos, eso es suficiente.


Preguntas frecuentes

¿GPT-5 o GPT-5-turbo? Turbo es 2x más rápido y 40% más barato, con ~5% menos de calidad. Para chat y tareas rutinarias, turbo. Para razonamiento y coding, GPT-5 completo.

¿Hay fine-tuning? Sí, OpenAI ofrece fine-tuning para GPT-5. Útil para tareas de dominio específico con 100+ ejemplos. Coste: $100 por 1M training tokens.

¿Funciona en español? Sí, excelente. No es su idioma principal pero la calidad es alta. Para español técnico, está al nivel de GPT-5 en inglés.

¿Batch API disponible? Sí, con 50% de descuento y 24h de latencia. Ideal para procesamiento asíncrono.

Fuentes: OpenAI API docs, Artificial Analysis (mayo 2026), LMSYS Chatbot Arena, tests propios con prompts estándar.

Veredicto: recommended
#openai#frontier-models#llm#benchmark