GPT Diffusion

Radar IA mayo 2026: lo que importó esta semana

2026-05-02 · Devs #radar#llm#modelos#agentes#benchmark

Modelos

DeepSeek V4 Pro disponible via API

DeepSeek lanzó V4 Pro, su modelo de razonamiento más capaz. Precio: $0.55/$2.19 por 1M tokens (input/output). En GPQA Diamond empata con Claude Sonnet 4 a un tercio del precio.

Qué significa: Para tareas de razonamiento que no necesitan lo top de lo top, DeepSeek V4 Pro es el nuevo rey de性价比. Espera que los routers de modelos empiecen a priorizarlo.

Gemini 2.5 Flash actualizado

Google actualizó Gemini 2.5 Flash con mejoras en coding. En LiveCodeBench sube del 35% al 42%. Sigue siendo gratuito en AI Studio con rate limits generosos.

Qué significa: Para prototipado y coding rápido sin coste, Flash sigue siendo la mejor opción gratuita.

Kimi K2 Thinking: última versión antes del deprecation

Moonshot confirmó que Kimi K2 Thinking se deprecia el 12 de mayo. Última versión disponible con mejoras en razonamiento. Si dependes de este modelo, migra ya.

Qué significa: No inicies nuevos proyectos con Kimi K2. Migra a DeepSeek V4 o Qwen 3 como alternativa open-weight.

Herramientas

Claude Code añade soporte para MCP servers globales

Anthropic actualizó Claude Code para soportar configuración global de MCP servers. Ahora puedes definir tools en ~/.claude/mcp.json y usarlas en cualquier proyecto sin configuración por-repo.

Qué significa: Flujo de trabajo más limpio. Define tus tools una vez (búsqueda, filesystem, git) y úsalas en todos lados.

Cursor 0.50: mejor agent mode

Cursor lanzó la versión 0.50 con agent mode mejorado. Ahora puede ejecutar comandos de terminal como parte del loop agentic. También añadió soporte para Gemini 2.5 Pro como modelo.

Qué significa: Cursor se acerca más a un agente completo sin dejar de ser editor. El agent mode sigue necesitando supervisión pero es más autónomo.

vLLM 0.8: soporte para MoE

vLLM 0.8 añade soporte optimizado para modelos Mixture-of-Experts (DeepSeek V4, Llama 4 Maverick). Throughput mejorado 2-3x para estos modelos.

Qué significa: Si haces self-hosting de modelos MoE, actualiza ya. La mejora es significativa.

Benchmarks y datos

Artificial Analysis actualiza rankings

Artificial Analysis actualizó sus rankings con datos de mayo:

  • Razonamiento: GPT-5.5 > Claude Opus 4.7 > DeepSeek V4 Pro
  • Coding: Claude Opus 4.7 > GPT-5.5 > DeepSeek V4
  • Coste-eficiencia: DeepSeek V4 > Qwen 3 > Gemini Flash > Claude Sonnet > GPT-4o

Qué significa: Para la mayoría de tareas de producción, DeepSeek V4 ofrece 90% de la calidad a 30% del precio.

SWE-bench Verified: nuevos resultados

Qwen 3 235B publicó resultados en SWE-bench Verified: 49.3%. Aún por debajo de Claude Opus 4.7 (62.1%) pero notable para un modelo open-weight.

Qué significa: Los modelos open-weight se acercan. Para coding agents que no necesitan SOTA, Qwen 3 es una opción viable.

Tendencias

El debate context window vs RAG se intensifica

Con Llama 4 Scout ofreciendo 10M tokens de contexto, la pregunta recurrente: ¿RAG sigue teniendo sentido?

La respuesta matizada: RAG sigue ganando para knowledge bases dinámicas y grandes. Context window gana para documentos estáticos y pequeños. El approach híbrido (context para lo principal, RAG para lo complementario) es lo que usa la mayoría en producción.

Agents SDK normalizados

OpenAI, Anthropic y Google han lanzado SDKs oficiales para agentes. El ecosistema se está estandarizando alrededor de:

  • Agent como unidad básica
  • Tools con esquemas typed
  • Loop de ejecución manejado por el SDK
  • MCP como protocolo de tools

Qué significa: Menos fragmentación. Más interoperabilidad. Pero cada SDK sigue siendo propietario.

Qué leer esta semana


Próximo radar: 9 de mayo.

Cargando comentarios...