La brecha cerrado-abierto es ahora anecdótica

TL;DR

Convergencia: Los modelos open-weight (Kimi K2.6, MiMo-V2.5-Pro) están a solo 3 puntos de Elo de la frontera.
Guerra de precios: Grok 4.20 es 4x más barato en output que Claude con una pérdida de razonamiento marginal (~20 Elo).
Local First: Gemma 4 es la opción lógica para hardware consumer (RTX 4060, M1).

Contexto

Llevamos meses escuchando que los modelos cerrados “juegan en otra liga”. Pero los datos de este mes sugieren que esa liga se ha vuelto muy pequeña. Cuando la diferencia entre el mejor modelo del mundo y uno abierto es de 3 puntos en la escala de Artificial Analysis (AA), el argumento de la “superioridad técnica” deja de ser útil para el 95% de las aplicaciones en producción.

Análisis

Estamos viendo tres movimientos simultáneos que cambian la ecuación de costes para cualquier dev:

1. El techo de cristal se ha roto

Kimi K2.6 (AA 54) y MiMo-V2.5-Pro ya no están “intentando alcanzar” a los modelos de frontera; están prácticamente en el mismo sitio (Frontier Tie: 57). En términos prácticos, esto significa que el razonamiento complejo ya no es un monopolio de tres empresas en San Francisco.

2. El “impuesto de frontera” ya no tiene sentido

La estrategia de xAI con Grok 4.20 es agresiva: $2/$6. Comparado con Claude, estamos hablando de un coste de salida 4 veces menor. Si aceptas una pérdida de ~20 Elo (que en la mayoría de los prompts de código o extracción de datos es imperceptible), el ahorro es masivo. Es una decisión puramente económica.

3. La democratización del despliegue local

Gemma 4 ha logrado optimizar la huella de memoria para que el despliegue local deje de ser un experimento de entusiastas. Que domine las categorías de 8GB y 16GB significa que puedes correr un modelo con capacidad de frontera en una RTX 4060 o un M1 Mac sin que el sistema colapse.

Mi posición

Deja de optimizar prompts para el modelo más caro solo “porque es el mejor”.

Si tu aplicación no requiere ese 5% extra de razonamiento crítico, pagar el sobrecoste de los modelos cerrados es, hoy por hoy, un error de arquitectura. El valor ya no está en quién tiene el modelo más grande, sino en quién lo despliega con menor latencia y coste. Mi recomendación: mueve tus workloads de volumen a Grok 4.20 y tus workloads privados a Gemma 4 local.

Fuentes: Artificial Analysis (AA), Pricing oficial de xAI, Benchmarks de despliegue local (LocalLLM/Llama.cpp)

La brecha cerrado-abierto es ahora anecdótica — Análisis de abril 2026