GPT Diffusion

Radar IA Semanal: la semana de los models baratos que compiten con frontier

2026-05-19 · editorial

Qué pasó

Qwen 3 235B subió al top 5. El modelo de Alibaba subió al top 5 en Artificial Analysis Elo, superando a varios modelos propietarios. En coding y razonamiento, Qwen 3 compite con GPT-5 a 1/5 del precio vía API.

Step 3.5 Flash es gratis. Step Fun liberó Step 3.5 Flash en NVIDIA NIM como modelo free tier. No es frontier, pero es gratis, rápido, y suficiente para 80% de tareas rutinarias. Se une a DeepSeek V4 Flash y Gemma 4 31B en la capa de “gratis pero bueno”.

Z.AI estabilizó su free tier. La plataforma china de APIs unificó su free tier: GLM-4.5-Air ilimitado, GLM-4.7 y GLM-5-Turbo con limits generosos. Para devs que no quieren gastar nada, es la mejor opción.

Por qué importa

El floor de calidad subió drásticamente. Hace un año, “modelo barato” significaba “casi usable”. Ahora, modelos gratuitos como Step 3.5 Flash y DeepSeek V4 Flash son genuinamente buenos. El floor de calidad subió tanto que para muchas tareas, no hay razón para pagar.

El pricing de frontier es insostenible. Cuando Qwen 3 ofrece 90% de la calidad a 20% del precio, GPT-5 a $2/$10 y Opus 4.7 a $3/$15 solo se justifican para el 10-20% de tareas donde la calidad extra importa. El routing inteligente no es optimización — es necesidad.

El mercado se estratificó en 3 capas claras:

  1. Free tier: Step 3.5 Flash, DeepSeek V4 Flash, Gemma 4 31B, GLM-4.5-Air — gratis, buenos para rutina
  2. Mid tier: Qwen 3 235B, DeepSeek V4 Pro, Llama 4 Maverick — baratos, buenos para producción
  3. Frontier: GPT-5, Opus 4.7, Gemini 2.5 Pro — caros, mejores para lo crítico

A quién afecta

  • Startups y freelancers: La capa free es suficiente para MVPs y prototipos. No hay excusa para no usar IA.
  • Equipos de infraestructura: El routing de modelos es ahora la decisión arquitectónica más importante. Elegir un solo modelo es subóptimo.
  • Empresas enterprise: Los SLAs y la estabilidad siguen justificando el pago por frontier. Pero la capa media está erosionando ese argumento.

Qué haría yo

  1. Arquitectura de routing por defecto:

    • Clasificación/extracción → Step 3.5 Flash (gratis)
    • Coding moderado → DeepSeek V4 Pro ($0.55/$2.19)
    • Análisis/escritura → Qwen 3 235B (barato, bueno)
    • Coding crítico → Opus 4.7 ($3/$15)
    • Fallback a frontier si el modelo barato falla
  2. Si no tengo routing: Empezar con DeepSeek V4 Pro para todo y escalar a frontier solo cuando encuentres tareas donde no sea suficiente.

  3. Si gestiono presupuesto: Monitorear el ratio de fallbacks. Si <10%, tu routing es eficiente. Si >25%, necesitas ajustar las reglas.


Señales que estoy vigilando

  • NVIDIA NIM free tier limits: Si NIM reduce los modelos gratuitos, la capa free se debilita. Por ahora, es generoso.
  • OpenAI response pricing model: OpenAI experimenta con pricing por tokens procesados vs generated. Si cambia, afecta el cálculo de routing.
  • Gemma 4 31B self-hosting: Google podría liberar Gemma 4 31B para self-hosting. Sería el modelo local más potente.

Próximo radar: 26 de mayo. RSS para actualizaciones.