Leaderboards explicados: qué benchmark mirar y cuál ignorar
TL;DR
- MMLU está muerto como diferenciador. Todo modelo decente puntúa 80%+. No uses MMLU para comparar.
- GPQA Diamond y SWE-bench son los mejores indicadores de calidad real en 2026.
- LiveCodeBench > HumanEval. HumanEval está contaminado por data leakage.
- LMSYS Chatbot Arena es el benchmark más honesto pero tiene sesgos de votante.
- Un modelo que lidera MMLU pero no publica SWE-bench está escondiendo algo.
Por qué los benchmarks importan (y por qué fallan)
Los benchmarks son la única forma objetiva de comparar modelos. Sin ellos, solo tenemos marketing y “en mi experiencia…”.
Pero los benchmarks tienen problemas:
- Contaminación: Los datos de test se filtran al entrenamiento. Un modelo puede ” memorizar” las respuestas.
- Gaming: Los proveedores optimizan para benchmarks específicos. Si MMLU es el estándar, entrenan para MMLU.
- No representan uso real: Acertar preguntas de trivia no significa que el modelo escriba buen código.
- Sesgo de formato: Algunos modelos rinden mejor en multiple-choice (MMLU) que en generación libre (SWE-bench).
Los benchmarks que importan en 2026
GPQA Diamond — Razonamiento experto
Qué mide: Capacidad de responder preguntas de nivel PhD en física, biología y química.
Por qué importa: Es difícil de gamear. Las preguntas requieren razonamiento real, no memorización. Los modelos que puntúan bien en GPQA tienden a razonar mejor en general.
Rango actual: 55-72%. Diferencias de 5+ puntos son significativas.
Cuándo mirarlo: Si necesitas el modelo para razonamiento complejo, análisis técnico o investigación.
SWE-bench Verified — Código real
Qué mide: Capacidad de resolver issues reales de repos open-source (Django, Flask, scikit-learn, etc.).
Por qué importa: Es lo más cercano a “este modelo puede arreglar bugs reales”. No es académico — son problemas de producción.
Rango actual: 40-65%. Diferencias de 3+ puntos son significativas.
Cuándo mirarlo: Si vas a usar el modelo para coding, debugging o mantenimiento de código.
LiveCodeBench — Código competitivo actualizado
Qué mide: Problemas de coding competitivo (LeetCode, Codeforces) con ventanas temporales para evitar data leakage.
Por qué importa: A diferencia de HumanEval, LiveCodeBench rota los problemas periódicamente. No se puede memorizar.
Rango actual: 30-55%. Duro. Diferencias de 5+ puntos son significativas.
Cuándo mirarlo: Si quieres medir capacidad de coding sin contaminación.
MMLU-Pro — Conocimiento general (con matices)
Qué mide: 14,000 preguntas de opción múltiple en 57 materias.
Por qué importa: Bien como sanity check. Si un modelo puntúa <70%, probablemente no sea bueno.
El problema: La mayoría de modelos top puntúan 78-85%. La diferencia de 2-3 puntos no es significativa. No uses MMLU para decidir entre modelos top.
Cuándo mirarlo: Como primer filtro. Si un modelo no llega a 75%, descártalo. Pero no decidas entre modelos basándote solo en MMLU.
HumanEval — Código básico (obsoleto parcialmente)
Qué mide: 164 problemas de programación en Python (funciones simples).
El problema: Está contaminado. Muchos modelos han visto los problemas durante entrenamiento. Casi todos los modelos top puntúan 90%+.
Cuándo mirarlo: Casi nunca. Usa LiveCodeBench o SWE-bench en su lugar.
LMSYS Chatbot Arena — El más honesto
Qué mide: Preferencia humana real. Dos modelos responden la misma pregunta, humanos votan cuál es mejor.
Por qué importa: Es el benchmark menos gameable. La gente vota según su experiencia real.
Los sesgos:
- Los votantes prefieren respuestas largas (length bias).
- Los votantes prefieren formato bonito (format bias).
- La muestra no es representativa (mayoritariamente usuarios técnicos, sesgo hacia inglés).
Cuándo mirarlo: Siempre, como complemento. Es el mejor indicador de “percepción de calidad” que tenemos.
IFEval — Instruction following
Qué mide: Capacidad de seguir instrucciones exactas (formato, longitud, contenido).
Por qué importa: En producción, necesitas que el modelo haga LO QUE LE PIDES. No que sea creativo cuando pides exactitud.
Cuándo mirarlo: Si usas el modelo para tareas estructuradas (JSON, tablas, formatos específicos).
Los benchmarks que deberías ignorar
MMLU (original)
Demasiado fácil en 2026. Todo modelo decente puntúa 80%+. No diferenciador.
GSM8K
Matemáticas de primaria. Todos los modelos los resuelven. No mide nada útil.
TruthfulQA
Intenta medir si el modelo dice la verdad. En la práctica, mide si el modelo evita topics sensibles, que depende del alignment, no de la capacidad.
Winogrande
Common sense reasoning básico. Saturado.
Cómo leer un leaderboard sin caer en marketing
1. Mira los benchmarks que el proveedor NO muestra
Si un modelo presume de MMLU pero no publica SWE-bench, es una señal roja. Los proveedores muestran donde ganan.
2. Compara con el mismo setup
“HumanEval pass@1” vs “HumanEval pass@10” no es comparable. Asegúrate de que los números usen la misma métrica.
3. Cuidado con los selection bias
“Mejor que GPT-4 en X” — probablemente fue GPT-4 base, no GPT-4 turbo. Compara con la versión actual.
4. Los rankings agregados engañan
Un modelo puede ser #1 en un ranking agregado pero ser peor que el #3 para tu caso de uso específico. Mira los benchmarks individuales que importan para tu tarea.
5. El tamaño del modelo importa
Un modelo de 70B que puntúa 85% en MMLU es más impresionante que uno de 600B que puntúa 87%. El primero es más eficiente y más barato de servir.
Leaderboards recomendados
| Leaderboard | URL | Qué ofrece |
|---|---|---|
| Artificial Analysis | artificialanalysis.ai | Rankings por tarea, precios, latencia |
| LMSYS Chatbot Arena | lmarena.ai | Elo rating por votos humanos |
| Open LLM Leaderboard | huggingface.co/spaces/open-llm-leaderboard | Open weights, múltiples benchmarks |
| LiveCodeBench | livecodebench.github.io | Coding sin contaminación |
| SWE-bench | swe-bench.github.io | Resolución de issues reales |
Tabla de referencia rápida
| Benchmark | Mide | ¿Fiable? | ¿Diferenciador? |
|---|---|---|---|
| GPQA Diamond | Razonamiento experto | ✅ Alto | ✅ Sí |
| SWE-bench | Código real | ✅ Alto | ✅ Sí |
| LiveCodeBench | Coding competitivo | ✅ Alto | ✅ Sí |
| MMLU-Pro | Conocimiento general | ⚠️ Medio | ❌ Poco |
| Chatbot Arena | Preferencia humana | ✅ Alto | ✅ Sí |
| IFEval | Instrucción following | ✅ Alto | ⚠️ Medio |
| HumanEval | Código básico | ❌ Bajo | ❌ No |
| GSM8K | Mate primaria | ❌ Bajo | ❌ No |
Conclusión
Para elegir un modelo en 2026, mira:
- SWE-bench (para coding)
- GPQA Diamond (para razonamiento)
- Chatbot Arena (para calidad percibida)
- IFEval (para instrucción following)
Ignora todo lo demás para decisión. Usa MMLU solo como sanity check.
Y recuerda: el mejor benchmark es probar el modelo con TU tarea real. Los benchmarks te dan la dirección; tus tests te dan la respuesta.
Fuentes: artificialanalysis.ai, lmarena.ai, swe-bench.github.io, livecodebench.github.io, documentación de cada benchmark.