Radar IA mayo 2026: lo que importó esta semana
Modelos
DeepSeek V4 Pro disponible via API
DeepSeek lanzó V4 Pro, su modelo de razonamiento más capaz. Precio: $0.55/$2.19 por 1M tokens (input/output). En GPQA Diamond empata con Claude Sonnet 4 a un tercio del precio.
Qué significa: Para tareas de razonamiento que no necesitan lo top de lo top, DeepSeek V4 Pro es el nuevo rey de性价比. Espera que los routers de modelos empiecen a priorizarlo.
Gemini 2.5 Flash actualizado
Google actualizó Gemini 2.5 Flash con mejoras en coding. En LiveCodeBench sube del 35% al 42%. Sigue siendo gratuito en AI Studio con rate limits generosos.
Qué significa: Para prototipado y coding rápido sin coste, Flash sigue siendo la mejor opción gratuita.
Kimi K2 Thinking: última versión antes del deprecation
Moonshot confirmó que Kimi K2 Thinking se deprecia el 12 de mayo. Última versión disponible con mejoras en razonamiento. Si dependes de este modelo, migra ya.
Qué significa: No inicies nuevos proyectos con Kimi K2. Migra a DeepSeek V4 o Qwen 3 como alternativa open-weight.
Herramientas
Claude Code añade soporte para MCP servers globales
Anthropic actualizó Claude Code para soportar configuración global de MCP servers. Ahora puedes definir tools en ~/.claude/mcp.json y usarlas en cualquier proyecto sin configuración por-repo.
Qué significa: Flujo de trabajo más limpio. Define tus tools una vez (búsqueda, filesystem, git) y úsalas en todos lados.
Cursor 0.50: mejor agent mode
Cursor lanzó la versión 0.50 con agent mode mejorado. Ahora puede ejecutar comandos de terminal como parte del loop agentic. También añadió soporte para Gemini 2.5 Pro como modelo.
Qué significa: Cursor se acerca más a un agente completo sin dejar de ser editor. El agent mode sigue necesitando supervisión pero es más autónomo.
vLLM 0.8: soporte para MoE
vLLM 0.8 añade soporte optimizado para modelos Mixture-of-Experts (DeepSeek V4, Llama 4 Maverick). Throughput mejorado 2-3x para estos modelos.
Qué significa: Si haces self-hosting de modelos MoE, actualiza ya. La mejora es significativa.
Benchmarks y datos
Artificial Analysis actualiza rankings
Artificial Analysis actualizó sus rankings con datos de mayo:
- Razonamiento: GPT-5.5 > Claude Opus 4.7 > DeepSeek V4 Pro
- Coding: Claude Opus 4.7 > GPT-5.5 > DeepSeek V4
- Coste-eficiencia: DeepSeek V4 > Qwen 3 > Gemini Flash > Claude Sonnet > GPT-4o
Qué significa: Para la mayoría de tareas de producción, DeepSeek V4 ofrece 90% de la calidad a 30% del precio.
SWE-bench Verified: nuevos resultados
Qwen 3 235B publicó resultados en SWE-bench Verified: 49.3%. Aún por debajo de Claude Opus 4.7 (62.1%) pero notable para un modelo open-weight.
Qué significa: Los modelos open-weight se acercan. Para coding agents que no necesitan SOTA, Qwen 3 es una opción viable.
Tendencias
El debate context window vs RAG se intensifica
Con Llama 4 Scout ofreciendo 10M tokens de contexto, la pregunta recurrente: ¿RAG sigue teniendo sentido?
La respuesta matizada: RAG sigue ganando para knowledge bases dinámicas y grandes. Context window gana para documentos estáticos y pequeños. El approach híbrido (context para lo principal, RAG para lo complementario) es lo que usa la mayoría en producción.
Agents SDK normalizados
OpenAI, Anthropic y Google han lanzado SDKs oficiales para agentes. El ecosistema se está estandarizando alrededor de:
- Agent como unidad básica
- Tools con esquemas typed
- Loop de ejecución manejado por el SDK
- MCP como protocolo de tools
Qué significa: Menos fragmentación. Más interoperabilidad. Pero cada SDK sigue siendo propietario.
Qué leer esta semana
- DeepSeek V4 technical report — detalles de arquitectura MoE
- Anthropic MCP spec update — cambios en el protocolo
- vLLM 0.8 release notes — mejoras MoE
- Artificial Analysis May 2026 leaderboard — rankings actualizados
Próximo radar: 9 de mayo.