🧠 Hub editorial

Modelos

Evaluaciones, pricing, benchmarks y decisiones prácticas sobre LLMs.

Qué modelo usar, cuándo pagarlo y cuándo no.

Leaderboards Rankings vivos. Reviews Fichas y veredictos. Comparativas Decisiones reales.

Explorar otros hubs

🤖 Agentes 🔧 Herramientas 📚 Tutoriales 📡 Radar

Contenido destacado

2026-07-30·Análisis

OpenAI recorta precios de GPT-5.6: Luna cae 80% a $0.20/M, Terra baja 20% y Sol estrena modo Fast

Sam Altman anuncia un recorte agresivo de precios para la familia GPT-5.6: Luna cae un 80% hasta $0.20/$1.20 por millón de tokens, Terra baja un 20% a $2/$12, y Sol estrena un modo Fast que duplica el precio por 2.5x velocidad. Análisis del impacto competitivo y qué significa para tu stack.

#openai#pricing#costes#frontier-models

2026-07-05·Análisis

Claude Sonnet 5: el modelo agéntico que acerca rendimiento Opus a precio Sonnet

Análisis técnico de Claude Sonnet 5: benchmarks reales, pricing agresivo, y qué significa para desarrollo en producción. El nuevo Sonnet reduce la brecha con Opus a solo 6 puntos en SWE-Bench Pro.

#claude#anthropic#llm#benchmark

2026-07-04·Estrategia

EU AI Act después de GPT-5.6 y Mythos: qué modelos llegan a Europa y bajo qué condiciones

Con GPT-5.6 bloqueado por controles de exportación de EE.UU. y Mythos restringido a empresas aprobadas, el EU AI Act entra en vigor en agosto. Análisis de qué modelos estarán disponibles en Europa, qué obligaciones impone la ley y qué pueden hacer los devs.

#openai#claude#frontier-models#leyes

2026-07-04·Análisis

El mercado LLM en julio 2026: Fable 5 arrasa, DeepSeek amenaza y la guerra de precios se radicaliza

Claude Fable 5 lidera el S-Tier con score 60, pero cuesta $25/MTok output. DeepSeek V4 Pro y Qwen 3.5-Flash ofrecen el mismo razonamiento a 1/28 del precio. Análisis de rankings, atención en Reddit y precios reales.

#frontier-models#pricing#benchmark#claude

2026-07-01·Análisis

Anthropic billing split: cómo cambia el pricing de Claude para devs que usan Agent SDK

Desde el 15 de junio de 2026, Anthropic separó el uso del Agent SDK en un pool de créditos propio, con costes de $20-$200 por usuario. Esto cambia el TCO de Claude Code y agentes en producción. Análisis del impacto real y estrategias de mitigación.

#anthropic#claude#costes#agentes

2026-07-01·Análisis

Apple + Anthropic: la estrategia multi-modelo que nadie quiere llamar por su nombre

El leak de Claude.md en Apple Support no fue un accidente: fue un diagnóstico. Apple depende de Anthropic, Google y OpenAI porque aún no puede construir un frontier model propio. Para devs, esto redefine cómo se distribuye la IA en dispositivos.

#apple#claude#anthropic#estrategia

2026-07-01·Review

Review: Qwen 3 235B

Análisis en profundidad de Qwen 3 235B: el modelo MoE de 235B parámetros de Alibaba. Evaluamos rendimiento, benchmarks, precio, licencia Apache 2.0 y comparativa con GPT-5, Claude 4 y DeepSeek V4.

#qwen#open-weights#review#benchmark

2026-06-29·Review

Review: Llama 4 Scout — El especialista en contexto ultra-largo

Llama 4 Scout ofrece 10M de contexto en un modelo open-weight de 17B parámetros activos. Especial para RAG y análisis de código, pero por debajo de Maverick y Gemma 4 en razonamiento puro. Rating 3.5/5.

#llama#open-weights#review#benchmark

2026-06-28·Análisis

Gemini 3.5 Pro: por qué la comunidad dice que decepciona (y qué datos lo confirman)

Gemini 3.5 Pro y Flash aterrizan con recepción tibia: peor coding que la competencia, bugs de razonamiento básico y comparaciones desfavorables contra GPT-5.6 Sol y Mythos 5. Analizamos los datos detrás del sentimiento negativo.

#gemini#google#frontier-models#benchmark

2026-06-28·Review

Review: Claude Opus 4.8 — El frontier más sólido en coding y agentes

Claude Opus 4.8 lidera los benchmarks de coding y agentes con precio constante. Fortalezas en honestidad, Dynamic Workflows y Fast Mode. Ideal para equipos técnicos en producción.

#claude#frontier-models#llm#benchmark

2026-06-26·Análisis

GPT-5.6 Sol aterriza con freno de mano puesto por el gobierno de EE.UU.: lo que pasó, lo que mide y lo que significa

OpenAI lanza GPT-5.6 Sol, Terra y Luna, pero el gobierno de Trump exige aprobación individual previa para cada partner. Primer caso de una frontier model 'con freno de mano' para crear un proceso repetible de evaluación. La UE y el resto del mundo quedan en la lista de espera.

#openai#frontier-models#seguridad#costes

2026-06-15·Análisis

GPT-6 Spud — Tracker Completo de Lanzamiento (2026)

Análisis exhaustivo de lo que sabemos (y no sabemos) sobre GPT-6. Timeline, especificaciones rumoreadas, credibilidad de fuentes y estrategia para desarrolladores.

#gpt-6#openai#frontier-models#benchmark

2026-06-15·Comparativa

Kimi K2.6 vs Gemma 4 31B — qué modelo usar para contenido en español

Dos modelos open-weight gratis en NIM con filosofía opuesta: MoE de 1T parámetros vs dense de 31B. Probamos cuál genera mejor contenido en español, cuál es más rápido, y cuándo conviene cada uno.

#comparativa#kimi#llm#benchmark

2026-06-14·Análisis

Claude Fable 5: el primer modelo Mythos público — 1M contexto, 128K output y guardrails para producción

Anthropic lanzó Claude Fable 5, el primer modelo de la clase Mythos accesible al público general. 1M de contexto, 128K de output, safeguards inteligentes y un precio premium. Esto es lo que necesitas saber antes de migrar tu stack.

#claude#anthropic#frontier-models#claude-code

2026-06-14·Análisis

EE.UU. bloquea Anthropic Fable 5 y Mythos 5 por export control: qué pasó y qué significa

El gobierno de EE.UU. ordena desactivar Fable 5 y Mythos 5 para todos los usuarios bajo controles de exportación. Anthropic llama a la orden 'injusta'. Primer export control directo sobre modelos de IA, no sobre chips.

#anthropic#frontier-models#seguridad

2026-06-14·Review

Review: Claude 4 Sonnet

Claude 4 Sonnet a $3/MTok ofrece calidad frontier para coding y razonamiento. Buena relacion calidad-precio, pero lento y superado por Sonnet 4.6.

#claude#frontier-models#review#llm

2026-06-13·Análisis

Microsoft MAI Models: 7 modelos propios de IA y por qué Microsoft ya no depende solo de OpenAI

En Build 2026, Microsoft presentó su familia MAI de 7 modelos propios: razonamiento, coding, imagen, voz y transcripción. Analizamos specs, benchmarks, pricing y cuándo tiene sentido usarlos.

#microsoft#mai#modelos#frontier-models

2026-06-12·Análisis

Grok V9-Medium: 1.5T parámetros y datos de Cursor — lo que sabemos del modelo de código de xAI

xAI completó el entrenamiento de Grok V9-Medium, un modelo de 1.5T parámetros entrenado con datos de Cursor que pretende competir con Claude Code y GitHub Copilot. Analizamos los datos disponibles, el roadmap y si merece la pena prestarle atención.

#grok#coding-agents#modelos

2026-06-11·Análisis

Routing multi-modelo 2026: cómo elegir el LLM correcto para cada tarea

No existe un modelo que lo haga todo bien y barato. En 2026, la pregunta no es '¿qué modelo uso?', sino '¿qué modelo uso para esta tarea concreta?'. Framework de decisiones con precios reales de junio 2026.

#routing#costes#optimizacion#llm

2026-06-11·Comparativa

DeepSeek V4 Pro vs GPT-5.5 vs Claude Opus 4.7 — Benchmarks, precios y qué modelo usar

Tres frontier models lanzados en ocho días. DeepSeek V4 Pro cuesta 9x menos que GPT-5.5 y compite en coding, Opus 4.7 domina en código complejo, y GPT-5.5 arrasa en tareas agénticas. Guía de routing por caso de uso con benchmarks reales.

#comparativa#deepseek#openai#claude

2026-06-10·Comparativa

DeepSeek V4 Pro vs GPT-5.5 vs Claude Opus 4.7: benchmark por benchmark

Datos actualizados junio 2026. DeepSeek V4 Pro subió sus benchmarks hasta rozar los frontier. ¿Sigue mereciendo la pena pagar 10-30x más por GPT-5.5 u Opus 4.7? Tablas lado a lado, coste por punto de precisión y veredicto por caso de uso.

#deepseek#openai#claude#modelos

2026-06-08·Comparativa

GPT-5.5-Cyber vs Claude Mythos: dos filosofías opuestas para la seguridad en IA

OpenAI apuesta por acceso controlado a miles de defenders con GPT-5.5-Cyber y el programa Trusted Access for Cyber. Anthropic cierra el grifo con Claude Mythos y Project Glasswing para 40 organizaciones. Mismas capacidades, estrategias opuestas. Aquí está el desglose técnico y qué significa para los devs.

#openai#claude#seguridad#frontier-models

2026-06-07·Análisis

Claude Mythos Explained: qué es, por qué está restringido y qué significa para la IA

Anthropic tiene un modelo capaz de encontrar vulnerabilidades zero-day mejor que casi cualquier humano, y ha decidido no publicarlo. Project Glasswing es el programa restringido que lo gestiona. Aquí está lo que sabemos, los datos del primer mes, y lo que implica para los devs.

#claude#anthropic#seguridad#open-weights

2026-05-29·Review

Review: DeepSeek V4 Pro

DeepSeek V4 Pro iguala o supera a GPT-5.5 en coding algoritmico y razonamiento matematico, a 17x menos coste. El mejor modelo open-weight que existe.

#deepseek#open-weights#llm#benchmark

2026-05-26·Análisis

Claude Sonnet 4.6 a $3/MTok con 1M de contexto: ¿El mejor value del mercado?

Sonnet 4.6 cuesta 1/5 que Opus, rinde dentro de 1.2 puntos en SWE-bench y ahora tiene 1M de contexto sin recargo. Análisis de pricing, benchmarks y en qué tareas merece la pena pagar más.

#frontier-models#pricing#claude#modelos

2026-05-26·Comparativa

Gemma 4 vs Llama 4 — Comparativa actualizada julio 2026

Comparativa Gemma 4 vs Llama 4 actualizada a julio 2026: Muse Spark cierra la era open de Meta, Scout cae en síntesis de contexto, Gemma 4 refuerza su ventaja. Specs, benchmarks, pricing y veredicto.

#gemma#llama#open-weights#comparativa

2026-05-25·Análisis

GPT-6 'Spud': todo lo que sabemos tras el lanzamiento de GPT-5.5 (Tracker actualizado)

Tracker vivo sobre GPT-6 y el codename Spud. Qué pasó con los rumores, qué entregó OpenAI con GPT-5.5, y cuándo esperar el verdadero GPT-6.

#gpt-6#openai#llm#benchmark

2026-05-25·Análisis

Qwen3.7-Max: el modelo de Alibaba diseñado para agentes — contexto 1M, 35 horas autónomo y un robot dog

Alibaba presentó Qwen3.7-Max como el primer modelo diseñado desde cero para la era de los agentes: 1M de contexto, ejecución autónoma de 35 horas, integración nativa con Claude Code y OpenClaw, y benchmarks que superan a Opus 4.6 en tareas agentic. Analizamos qué hay de marketing y qué hay de verdad.

#qwen#agentes#coding-agents#mcp

2026-05-25·Review

Review: Gemini 3.5 Flash — velocidad frontier, precio Flash, matices reales

Gemini 3.5 Flash supera a 3.1 Pro en benchmarks agentic y cuesta 40% menos. Pero el coste real por tarea puede ser 5x superior a Flash 3.0. Review con datos, no marketing.

#gemini#google#frontier-models#review

2026-05-23·Análisis

Apple + Anthropic: Qué nos dice la integración de Claude sobre el futuro de la IA en dispositivos

Apple usa Claude internamente, integra agentes en Xcode, adopta MCP a nivel sistema y abrirá Siri a modelos de terceros. Esto es lo que significa para devs que construyen con IA.

#apple#anthropic#claude#mcp

2026-05-22·Análisis

China prohíbe despidos por IA: qué dicen los tribunales y qué significa para los devs

Tribunales chinos han declarado ilegal despedir a trabajadores para sustituirlos por IA. Repaso a las sentencias, la comparativa con la UE y EEUU, y qué significa para devs que trabajan con empresas globales.

#agentes#caso-real#costes#optimizacion

2026-05-22·Análisis

Open Source Catching Up — GLM-5.1 y Gemma 4 Muestran el Cambio de Poder

GLM-5.1 lidera coding y razonamiento complejo; Gemma 4 democratiza con Apache 2.0. Los modelos open-source ya no son curiosidades: son alternativas viables.

#modelos#open-weights#llm#benchmark

2026-05-22·Caso real

La trampa de los despidos por IA — Por qué las empresas automatizan de más

Klarna recontrató humanos tras reemplazar 700 agentes con IA. IBM despidió 8.000 empleados y tuvo que recontratar. Forrester dice que el 55% de empresas se arrepienten. Datos, casos reales y un framework para decidir qué automatizar sin quemar tu organización.

#costes#automatizacion#caso-real#productividad

2026-05-21·Análisis

DeepSeek V4 API: guía completa de costes reales por workload (datos de junio 2026)

Precios DeepSeek V4 Pro y Flash después del descuento del 75%. Comparativa con GPT-5.4, Claude Opus 4.7 y Gemini 3.5 Flash. Cálculos reales para coding, RAG, agentes y batch.

#deepseek#pricing#api#costes

2026-05-21·Comparativa

GPT-5.5-Cyber vs Claude Mythos — La Carrera de Seguridad IA

Análisis técnico profundo de los dos modelos de seguridad más avanzados del mercado: GPT-5.5-Cyber de OpenAI y Claude Mythos de Anthropic. Capabilities, pricing y casos de uso real para desarrolladores.

#seguridad#openai#anthropic#claude

2026-05-21·Comparativa

Mistral Medium 3.5 vs DeepSeek V4 Pro: Duelo Open-Source

Dos modelos open-weight de élite, filosofías opuestas. Mistral ofrece velocidad y multimodalidad; DeepSeek entrega inteligencia bruta y contexto masivo. ¿Cuál compensa en producción?

#mistral#deepseek#open-weights#benchmark

2026-05-21·Comparativa

Gemini 3.5 vs GPT-5.5 vs Claude Opus 4.7: comparativa para devs en 2026

Cuatro modelos, cuatro filosofías. Gemini 3.5 Flash cambia el juego con velocidad y agenticidad. ¿Cuál usar para coding, agentes multimodales y presupuestos ajustados? Benchmarks reales, precios y casos de uso prácticos.

#gemini#openai#claude#benchmark

2026-05-20·Análisis

Apple + Anthropic: qué nos dice el leak de Claude.md sobre la estrategia real de IA

Los archivos CLAUDE.md filtrados en la app Apple Support revelan que Apple usa Claude Code internamente, tiene un LLM propio llamado Juno AI, y su estrategia de IA es más dependiente de terceros de lo que reconoce públicamente.

#claude#anthropic#apple#on-device

2026-05-20·Análisis

Google invierte 40.000M$ en Anthropic: qué cambia para desarrolladores

Google ha anunciado una inversión de hasta 40.000M$ en Anthropic. Pero el 75% está condicionado a hitos, y la parte que importa de verdad es el compute: 5 GW de TPU durante 5 años. Qué significa esto para los devs que usan Claude, la API, y el ecosistema LLM.

#anthropic#claude#openai#costes

2026-05-20·Análisis

Google I/O 2026: lo que todo dev necesita saber (Gemini 3.5, Omni, Antigravity 2.0)

Google I/O 2026 trajo Gemini 3.5 Flash (4x más rápido que otros frontier), Antigravity 2.0 (platforma agent-first que reemplaza Gemini CLI), Gemini Omni (video desde cualquier input) y cambios en Search que afectan tu SEO. Guía práctica para devs con datos, pricing y migraciones.

#gemini#agentes#api#developer-tools

2026-05-20·Análisis

Open Source Catching Up — GLM-5.1 y Gemma 4 Cambian el Juego

La brecha entre open-source y modelos cerrados se ha cerrado. GLM-5.1 lidera benchmarks y Gemma 4 ofrece calidad excepcional para hardware consumer.

#llm#modelos#open-weights#benchmark

2026-05-07·Análisis

Gemini 3.1 Pro: el modelo que supera a Claude Opus en razonamiento y tiene 2M de contexto

Gemini 3.1 Pro logra 94.3% en GPQA Diamond (superando a Opus 4.7), 2M tokens de contexto y 80.6% en SWE-bench. Análisis con datos del Model Card oficial de Google DeepMind.

#gemini#google#frontier-models#benchmark

2026-05-06·Review

Review: Gemini 2.5 Pro — el modelo con más contexto del mercado

Gemini 2.5 Pro tiene 1M tokens de contexto, excelente multimodal y pricing agresivo. Pero su API es errática y los rate limits hieren su caso de uso principal. Review con datos reales.

#gemini#google#frontier-models#review

2026-05-06·Review

Review: Llama 4 Maverick — el open-weight que compite con frontier

Llama 4 Maverick es el modelo open-weight más capaz de Meta. MoE eficiente, buen español, y self-hosting real. Pero no llega al nivel de Opus 4.7 ni GPT-5 en razonamiento profundo.

#llama#open-weights#review#self-hosting

2026-05-06·Review

Review: Mistral Large 3 — el modelo europeo que mejoró mucho

Mistral Large 3 mejoró en coding y agentes, con Agents API nativo y pricing competitivo. Pero su razonamiento sigue por debajo de frontier y el español es su punto débil.

#mistral#review#open-weights

2026-05-06·Comparativa

Claude Opus 4.7 vs GPT-5: cuándo usar cada uno en producción

Comparativa práctica entre los dos modelos frontier de 2026: rendimiento en coding, razonamiento, costes y casos de uso reales. Con datos, no opiniones.

#claude#openai#llm#modelos

2026-05-03·Comparativa

GPT-5.5 vs Claude Opus 4.7 — Qué modelo usar según tu workload

GPT-5.5 arrasa en tareas agénticas, Opus 4.7 domina en código y veracidad. Desglose con benchmarks reales, precios y una guía de routing por caso de uso.

#comparativa#gpt-5.5#claude-opus-4.7#llm

2026-05-01·Review

Mistral Medium 3.5: ¿El nuevo estándar de los modelos open-weight?

Mistral lanza el Medium 3.5: 128B parámetros, licencia MIT y un 77.6% en SWE-bench. Analizamos si realmente puede sustituir a los modelos frontera en

#mistral#open-weights#llm#benchmark

2026-05-01·Review

Grok 3: review completa — rendimiento, pricing y comparativa (2026)

Análisis exhaustivo de Grok 3 de xAI: benchmarks, pricing, metodología de evaluación y comparativa frente a GPT-4o, Claude Sonnet y Gemini. 1,250+ palabras con veredicto justificado.

#modelos#review#benchmark#frontier-models

2026-04-30·Review

Review: DeepSeek R2

DeepSeek R2 ofrece calidad frontier a precio de commodidad. No es perfecto, pero redefinió lo que esperamos de un modelo open-weight.

#deepseek#open-weights#llm#benchmark

2026-04-30·Comparativa

Mistral Medium 3.5 vs DeepSeek V4: Comparativa Open Source Abril 2026

Frente a frente dos modelos open-weight de élite lanzados en abril 2026: Mistral Medium 3.5 (denso, rápido, multimodal) y DeepSeek V4 (MoE, 1M contexto, precio imbatible). Analizamos specs, benchmarks reales, pricing, disponibilidad en Europa y veredicto por caso de uso.

#mistral#deepseek#open-weights#comparativa

2026-04-29·Análisis

Open weights vs closed models: cuándo compensa cada uno

Modelos abiertos vs propietarios en 2026: rendimiento real, costes, privacidad, self-hosting y la decisión de cuál usar para cada caso.

#open-weights#frontier-models#open-source#costes

2026-04-26·Análisis

DeepSeek V4: análisis completo de Pro y Flash — benchmarks, pricing y cuándo usar cada uno

DeepSeek V4-Pro y V4-Flash llegan con 1M de contexto, licencia MIT y benchmarks que compiten con GPT-5.4 y Claude Opus 4.6. Analizamos arquitectura,

#deepseek#llm#benchmark#pricing

2026-04-26·Análisis

Leaderboards explicados: qué benchmark mirar y cuál ignorar

No todos los benchmarks valen lo mismo. Guía práctica para leer leaderboards sin caer en marketing: qué mide cada uno, qué significa realmente y cuándo importa.

#benchmark#modelos#evaluacion#llm

2026-04-24·Review

Review: Claude 4 Opus

Claude 4 Opus es el mejor modelo de coding del mercado. Caro, pero si tu trabajo depende de escribir código, merece cada céntimo.

#claude#frontier-models#llm#benchmark

2026-04-23·Análisis

Guía de costes LLM: tokens, caching, routing y proveedores

Cómo calcular, optimizar y reducir el coste de usar LLMs en producción: tokens, caching semántico, routing inteligente y qué proveedores convienen.

#costes#pricing#tokens#optimizacion

2026-04-20·Análisis

Guía de modelos LLM para devs en 2026

Todos los modelos que importan en 2026, clasificados por caso de uso, con datos reales de benchmarks, precios y disponibilidad.

#llm#modelos#open-weights#frontier-models

2026-04-19·Review

Review: GPT-5

GPT-5 sigue siendo el modelo más versátil del mercado. No es el mejor en nada, pero es excelente en casi todo. Review con datos reales.

#openai#frontier-models#llm#benchmark

2026-04-14·Análisis

La brecha cerrado vs abierto se cierra (abril 2026)

Los modelos open-weight están a 3 puntos de Elo de la frontera. La guerra de precios ha empezado. Y el local first es viable. Qué significa todo esto.

#open-weights#frontier-models#benchmark#llm