GPT Diffusion

Leaderboards explicados: qué benchmark mirar y cuál ignorar

2026-04-26 · Devs #benchmark#modelos#evaluacion#llm#comparativa

TL;DR

  • MMLU está muerto como diferenciador. Todo modelo decente puntúa 80%+. No uses MMLU para comparar.
  • GPQA Diamond y SWE-bench son los mejores indicadores de calidad real en 2026.
  • LiveCodeBench > HumanEval. HumanEval está contaminado por data leakage.
  • LMSYS Chatbot Arena es el benchmark más honesto pero tiene sesgos de votante.
  • Un modelo que lidera MMLU pero no publica SWE-bench está escondiendo algo.

Por qué los benchmarks importan (y por qué fallan)

Los benchmarks son la única forma objetiva de comparar modelos. Sin ellos, solo tenemos marketing y “en mi experiencia…”.

Pero los benchmarks tienen problemas:

  1. Contaminación: Los datos de test se filtran al entrenamiento. Un modelo puede ” memorizar” las respuestas.
  2. Gaming: Los proveedores optimizan para benchmarks específicos. Si MMLU es el estándar, entrenan para MMLU.
  3. No representan uso real: Acertar preguntas de trivia no significa que el modelo escriba buen código.
  4. Sesgo de formato: Algunos modelos rinden mejor en multiple-choice (MMLU) que en generación libre (SWE-bench).

Los benchmarks que importan en 2026

GPQA Diamond — Razonamiento experto

Qué mide: Capacidad de responder preguntas de nivel PhD en física, biología y química.

Por qué importa: Es difícil de gamear. Las preguntas requieren razonamiento real, no memorización. Los modelos que puntúan bien en GPQA tienden a razonar mejor en general.

Rango actual: 55-72%. Diferencias de 5+ puntos son significativas.

Cuándo mirarlo: Si necesitas el modelo para razonamiento complejo, análisis técnico o investigación.

SWE-bench Verified — Código real

Qué mide: Capacidad de resolver issues reales de repos open-source (Django, Flask, scikit-learn, etc.).

Por qué importa: Es lo más cercano a “este modelo puede arreglar bugs reales”. No es académico — son problemas de producción.

Rango actual: 40-65%. Diferencias de 3+ puntos son significativas.

Cuándo mirarlo: Si vas a usar el modelo para coding, debugging o mantenimiento de código.

LiveCodeBench — Código competitivo actualizado

Qué mide: Problemas de coding competitivo (LeetCode, Codeforces) con ventanas temporales para evitar data leakage.

Por qué importa: A diferencia de HumanEval, LiveCodeBench rota los problemas periódicamente. No se puede memorizar.

Rango actual: 30-55%. Duro. Diferencias de 5+ puntos son significativas.

Cuándo mirarlo: Si quieres medir capacidad de coding sin contaminación.

MMLU-Pro — Conocimiento general (con matices)

Qué mide: 14,000 preguntas de opción múltiple en 57 materias.

Por qué importa: Bien como sanity check. Si un modelo puntúa <70%, probablemente no sea bueno.

El problema: La mayoría de modelos top puntúan 78-85%. La diferencia de 2-3 puntos no es significativa. No uses MMLU para decidir entre modelos top.

Cuándo mirarlo: Como primer filtro. Si un modelo no llega a 75%, descártalo. Pero no decidas entre modelos basándote solo en MMLU.

HumanEval — Código básico (obsoleto parcialmente)

Qué mide: 164 problemas de programación en Python (funciones simples).

El problema: Está contaminado. Muchos modelos han visto los problemas durante entrenamiento. Casi todos los modelos top puntúan 90%+.

Cuándo mirarlo: Casi nunca. Usa LiveCodeBench o SWE-bench en su lugar.

LMSYS Chatbot Arena — El más honesto

Qué mide: Preferencia humana real. Dos modelos responden la misma pregunta, humanos votan cuál es mejor.

Por qué importa: Es el benchmark menos gameable. La gente vota según su experiencia real.

Los sesgos:

  • Los votantes prefieren respuestas largas (length bias).
  • Los votantes prefieren formato bonito (format bias).
  • La muestra no es representativa (mayoritariamente usuarios técnicos, sesgo hacia inglés).

Cuándo mirarlo: Siempre, como complemento. Es el mejor indicador de “percepción de calidad” que tenemos.

IFEval — Instruction following

Qué mide: Capacidad de seguir instrucciones exactas (formato, longitud, contenido).

Por qué importa: En producción, necesitas que el modelo haga LO QUE LE PIDES. No que sea creativo cuando pides exactitud.

Cuándo mirarlo: Si usas el modelo para tareas estructuradas (JSON, tablas, formatos específicos).

Los benchmarks que deberías ignorar

MMLU (original)

Demasiado fácil en 2026. Todo modelo decente puntúa 80%+. No diferenciador.

GSM8K

Matemáticas de primaria. Todos los modelos los resuelven. No mide nada útil.

TruthfulQA

Intenta medir si el modelo dice la verdad. En la práctica, mide si el modelo evita topics sensibles, que depende del alignment, no de la capacidad.

Winogrande

Common sense reasoning básico. Saturado.

Cómo leer un leaderboard sin caer en marketing

1. Mira los benchmarks que el proveedor NO muestra

Si un modelo presume de MMLU pero no publica SWE-bench, es una señal roja. Los proveedores muestran donde ganan.

2. Compara con el mismo setup

“HumanEval pass@1” vs “HumanEval pass@10” no es comparable. Asegúrate de que los números usen la misma métrica.

3. Cuidado con los selection bias

“Mejor que GPT-4 en X” — probablemente fue GPT-4 base, no GPT-4 turbo. Compara con la versión actual.

4. Los rankings agregados engañan

Un modelo puede ser #1 en un ranking agregado pero ser peor que el #3 para tu caso de uso específico. Mira los benchmarks individuales que importan para tu tarea.

5. El tamaño del modelo importa

Un modelo de 70B que puntúa 85% en MMLU es más impresionante que uno de 600B que puntúa 87%. El primero es más eficiente y más barato de servir.

Leaderboards recomendados

LeaderboardURLQué ofrece
Artificial Analysisartificialanalysis.aiRankings por tarea, precios, latencia
LMSYS Chatbot Arenalmarena.aiElo rating por votos humanos
Open LLM Leaderboardhuggingface.co/spaces/open-llm-leaderboardOpen weights, múltiples benchmarks
LiveCodeBenchlivecodebench.github.ioCoding sin contaminación
SWE-benchswe-bench.github.ioResolución de issues reales

Tabla de referencia rápida

BenchmarkMide¿Fiable?¿Diferenciador?
GPQA DiamondRazonamiento experto✅ Alto✅ Sí
SWE-benchCódigo real✅ Alto✅ Sí
LiveCodeBenchCoding competitivo✅ Alto✅ Sí
MMLU-ProConocimiento general⚠️ Medio❌ Poco
Chatbot ArenaPreferencia humana✅ Alto✅ Sí
IFEvalInstrucción following✅ Alto⚠️ Medio
HumanEvalCódigo básico❌ Bajo❌ No
GSM8KMate primaria❌ Bajo❌ No

Conclusión

Para elegir un modelo en 2026, mira:

  1. SWE-bench (para coding)
  2. GPQA Diamond (para razonamiento)
  3. Chatbot Arena (para calidad percibida)
  4. IFEval (para instrucción following)

Ignora todo lo demás para decisión. Usa MMLU solo como sanity check.

Y recuerda: el mejor benchmark es probar el modelo con TU tarea real. Los benchmarks te dan la dirección; tus tests te dan la respuesta.


Fuentes: artificialanalysis.ai, lmarena.ai, swe-bench.github.io, livecodebench.github.io, documentación de cada benchmark.

Lectura relacionada

Cargando comentarios...