El mercado LLM en julio 2026: Fable 5 arrasa, DeepSeek amenaza y la guerra de precios se radicaliza
El mercado LLM en julio 2026: Fable 5 arrasa, DeepSeek amenaza y la guerra de precios se radicaliza
TL;DR
- Claude Fable 5 domina el ranking de inteligencia con un score de 60.0 en AA_Intelligence, marcando distancia frente a Opus 4.8 (56.0) y GPT-5.5 (55.0).
- Anthropic acapara 50 menciones en Reddit frente a las 44 de GPT — el foco de la conversación técnica se desplaza hacia Claude.
- La brecha de precio entre “inteligencia pura” y “eficiencia” es ahora abismal: Fable 5 cuesta $25/MTok output, mientras que DeepSeek V4 Pro está a $0.88/MTok — 28x más barato.
- Qwen 3.5-Flash ($0.26/M output) es imbatible para operaciones masivas, pero los modelos Flash alucinan en razonamiento nuanced.
- Routing recomendado: Fable 5 solo para síntesis crítica, DeepSeek V4 Pro para análisis de volumen, Qwen 3.5-Flash para ops triviales.
1. Atención y Tendencias: Reddit se rinde a Anthropic
Los datos de menciones en Reddit (recopilados durante la semana del 28 de junio al 4 de julio de 2026 sobre 121 subreddits técnicos) pintan un cuadro claro:
| Modelo / familia | Menciones en Reddit | Tendencia |
|---|---|---|
| Claude (Anthropic) | 50 | ↗ Dominante |
| GPT (OpenAI) | 44 | → Estable |
| DeepSeek | 23 | ↗ En alza |
| Gemini (Google) | 18 | ↘ Bajando |
| Qwen | 15 | → Estable |
| Codex (OpenAI) | 14 | → Estable |
| Opus (Anthropic) | 11 | → Estable |
| GLM (Zhipu AI) | 11 | → Estable |
| Llama (Meta) | 11 | ↘ Bajando |
| Kimi (Moonshot) | 1 | — Irrelevante |
Qué significa esto: La conversación técnica ya no gira en torno a “¿GPT o Claude?” sino en torno a “¿qué modelo de Anthropic uso y cuándo conviene algo más barato?”. DeepSeek ha pasado de ser “el chino barato” a ser la alternativa eficiente de referencia, superando a Gemini y Qwen en atención.
GPT-5.5 mantiene una presencia sólida, pero no genera el mismo nivel de discusión técnica que la familia Claude. Y Gemini va perdiendo fuelle en la conversación comunitaria, a pesar de sus actualizaciones recientes.
2. Rankings: Un nuevo S-Tier
El ranking AA_Intelligence (actualizado a 2 de julio de 2026) muestra un mercado bifurcado:
| Posición | Modelo | Score | Provider |
|---|---|---|---|
| #1 | Claude Fable 5 | 60.0 | Anthropic |
| #2 | Claude Opus 4.8 (max) | 56.0 | Anthropic |
| #3 | GPT-5.5 (xhigh) | 55.0 | OpenAI |
| #4 | Claude Opus 4.7 (max) | 54.0 | Anthropic |
| #5 | Claude Sonnet 5 (max) | 53.0 | Anthropic |
| #6 | GPT-5.5 (high) | 53.0 | OpenAI |
| #7 | GLM-5.2 (max) | 51.0 | Zhipu AI |
| #8 | GPT-5.5 (medium) | 50.0 | OpenAI |
| #9 | Gemini 3.5 Flash | 50.0 | |
| #10 | Gemini 3.1 Pro Preview | 46.0 |
Observaciones:
- Anthropic copa 4 de las 5 primeras posiciones. Fable 5 no solo lidera: marca una distancia de 4 puntos sobre el segundo, algo inusual en un mercado donde las diferencias suelen ser de 1-2 puntos.
- OpenAI se estanca. GPT-5.5 es un modelo sólido, pero no logra disputar el primer puesto. Su variante “xhigh” se queda a 5 puntos de Fable 5.
- Google desaparece del Top 5. Gemini 3.5 Flash y 3.1 Pro Preview aparecen en posiciones #9 y #10 — claramente por debajo del nivel de inteligencia de la competencia directa.
- GLM-5.2 es el open-weight más cercano al frontier. Con un score de 51.0, Zhipu AI se cuela en el #7, por delante de Gemini 3.1 Pro y a la par que GPT-5.5 medium.
3. Precios: La guerra se radicaliza
La tabla de precios (a 2 de julio de 2026) revela una fractura profunda en el mercado:
| Modelo | Input $/MTok | Output $/MTok | Ratio vs Fable 5 |
|---|---|---|---|
| Claude Fable 5 | $5.00 | $25.00 | 1x (referencia) |
| Claude Opus 4.8 | $5.00 | $25.00 | 1x |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 0.6x |
| Gemini 3.5 Pro | $2.50 | $15.00 | 0.6x |
| Gemini 3.5 Flash | $1.50 | $9.00 | 0.36x |
| Claude Haiku 4.5 | $1.00 | $5.00 | 0.2x |
| Gemini 3 Flash | $0.30 | $2.50 | 0.1x |
| MiniMax-M3 | $0.40 | $1.20 | 0.048x |
| DeepSeek V4 Pro | $0.45 | $0.88 | 0.035x |
| Mercury 2 | $0.14 | $0.28 | 0.011x |
| Qwen 3.5-Flash | $0.065 | $0.26 | 0.010x |
| Qwen 3.5-0.8B | $0.01 | $0.04 | 0.0016x |
El dato clave: DeepSeek V4 Pro ofrece output a $0.88/MTok frente a los $25/MTok de Fable 5. Es decir, 28x más barato. Para un workload de 100M tokens de output al mes, la diferencia es $2.480 vs $88. Y DeepSeek V4 Pro está en el Top-5 de inteligencia — no es un modelo de juguete.
La pregunta deja de ser “¿qué modelo es mejor?” y pasa a ser “¿necesito realmente ese 10% extra de inteligencia para esta tarea, o puedo delegar el 80% del volumen a algo 28x más barato?“.
4. Routing: Qué modelo usar para qué tarea
Basado en los datos de rankings, precios y atención, esto es lo que recomendaría a cualquier equipo que opere con LLMs en julio 2026:
Tareas críticas de razonamiento (síntesis final, análisis estratégico)
Usa Fable 5 o Opus 4.8. El score de 60.0 de Fable 5 justifica el coste cuando el output va a un cliente, a una decisión estratégica o a un sistema donde un error cuesta más que tokens. Pero a $25/MTok output, úsalo solo para el paso final: el 80% del procesamiento (lectura, triaje, resumen) debería ir por modelos más baratos.
Análisis de volumen (procesamiento masivo, extracción, clasificación)
Usa DeepSeek V4 Pro ($0.88/M output). Con un score competitivo y un precio 28x inferior al frontier, es el candidato ideal para cargas masivas donde necesitas razonamiento pero no perfección. Si procesas 500 documentos, el coste de Fable 5 sería prohibitivo y la diferencia de calidad probablemente no justifique el gasto.
Operaciones triviales (routing, formato, validación)
Usa Qwen 3.5-Flash ($0.26/M output) o MiniMax-M3 ($1.20/M output). Para tareas donde el modelo solo necesita entender la instrucción y responder con formato correcto, estos modelos son más que suficientes. Qwen 3.5-Flash a $0.065/M input es prácticamente gratis.
Fallback general
Gemini 3.5 Flash ($9/M output) o GLM-5.2 (open-weight) son buenos fallbacks por su estabilidad y disponibilidad. GLM-5.2 tiene la ventaja de ser self-hostable, lo que elimina dependencias de API.
5. Riesgos y advertencias
Riesgo de coste: Fable 5 en producción
Si configuras Fable 5 como modelo por defecto en un pipeline agentic que genera volumen de tokens, la factura mensual puede dispararse sin que te des cuenta. Un agente que consume 50M tokens de output al mes con Fable 5 cuesta $1.250 solo en output. El mismo workload con DeepSeek V4 Pro: $44.
Mitigación: Configura alertas de coste y routing por defecto hacia modelos baratos. Fable 5 solo para pasos críticos.
Riesgo de calidad: sobre-dependencia de modelos Flash
Qwen 3.5-Flash y Gemini 3 Flash son excelentes para tareas triviales, pero su razonamiento nuanced es significativamente peor que el de modelos frontier. Usarlos para síntesis de datos complejos o análisis técnico profundo generará alucinaciones silenciosas — el tipo de error que no detectas hasta que un cliente se queja.
Mitigación: Audita periódicamente una muestra de outputs generados por modelos Flash. Si la calidad cae, sube de tier.
Riesgo de lock-in: Anthropic dominante
Con 4 de las 5 primeras posiciones del ranking, Anthropic está copando el S-Tier. Si tu infraestructura depende exclusivamente de Claude, cualquier cambio de pricing, política de uso o disponibilidad te impacta directamente.
Mitigación: Mantén DeepSeek V4 Pro y GLM-5.2 como alternativas probadas. El patrón multi-model validation (drafter + reviewer) no es solo para calidad: es un seguro operativo.
Conclusión
El mercado de julio 2026 cuenta una historia doble. Arriba, Anthropic domina en inteligencia y atención: Fable 5 es el modelo más capaz disponible, y la comunidad lo sabe. Abajo, la guerra de precios se ha radicalizado hasta el punto de que modelos perfectamente usables cuestan menos que un café por millón de tokens.
La estrategia ganadora no es elegir un modelo: es segmentar por tarea. Frontier para lo crítico, DeepSeek para el volumen, Flash para lo trivial. Quien siga usando un solo modelo para todo está tirando dinero — o sacrificando calidad donde no debería.
Fuentes
- Rankings: AA_Intelligence leaderboard (recopilado vía
leaderboard-history.db, actualizado 2026-07-02). - Precios: Pricing oficial de providers (Anthropic, OpenAI, Google, DeepSeek, Alibaba, MiniMax, Inception), recopilado 2026-07-02.
- Atención Reddit: 121 subreddits técnicos, 373 menciones de modelos analizadas, semana del 28 de junio al 4 de julio de 2026 (
reddit-research.db).