Radar IA Semanal Julio 2026, Semana 1: Antigravity 2.0 crea un OS con 96 agentes, vulnerabilidad crítica en vLLM/MCP, Apple depende de Anthropic y el EU AI Act redefine qué modelos llegan a Europa

Resumen ejecutivo

Esta semana el ecosistema se movió en tres frentes: la capacidad de los agentes multi-agente dio un salto cualitativo, la seguridad de infraestructura open-weight se vio comprometida, y la regulación europea comenzó a materializar restricciones concretas:

Google Antigravity 2.0: 96 agentes generan un sistema operativo funcional en 12 horas por menos de $1.000 en tokens (incluye soporte para Doom)
Vulnerabilidad crítica en vLLM/MCP: un bug en el framework compartido por vLLM y servidores MCP permite ejecución remota de código (RCE) en sistemas de inferencia open-weight
Apple + Anthropic: un leak de CLAUDE.md en Apple Support revela que Apple depende de Claude para desarrollo interno mientras construye su propia estrategia multi-modelo
EU AI Act post-GPT-5.6/Mythos: la regulación entra en vigor en agosto, pero dos de los tres frontier models más potentes del mundo tienen acceso bloqueado para Europa
Leaderboard: Claude Fable 5 lidera el ArtificialAnalysis Intelligence Index con 60.0 puntos, pero permanece bajo restricción gubernamental
Papers: Bengio publica generadores de Boltzmann autoregresivos; nueva técnica de prompting injection en screening de CVs con LLMs

Modelos y providers

Google Antigravity 2.0: 96 agentes, un sistema operativo, 12 horas

Google DeepMind publicó Antigravity 2.0, un experimento donde 96 agentes LLM coordinados generaron un sistema operativo funcional desde cero. El SO resultante corre Doom — la métrica no-oficial de “es real” en software generado por IA.

Métrica	Valor
Agentes coordinados	96
Tiempo de generación	~12 horas
Coste en tokens	< $1.000
Output	Sistema operativo funcional con scheduler, drivers, filesystem
Verificación	Ejecuta Doom

Qué significa: Es la demostración más clara hasta la fecha de que los sistemas multi-agente pueden producir software funcional complejo, no solo snippets o funciones aisladas. El coste trivial (<$1.000) comparado con el output (un SO completo) redefine lo que los equipos de desarrollo pueden esperar de arquitecturas multi-agente. Para devs: esto no es un truco de marketing, es un salto cualitativo en la complejidad que un sistema multi-agente puede manejar.

Relacionado: Análisis completo de Antigravity 2.0

Apple + Anthropic: el leak de Claude.md y la estrategia multi-modelo

Un desarrollador encontró archivos CLAUDE.md dentro de la app Apple Support en abril de 2026. Apple los parcheó en horas, pero la señal es clara: Apple depende de Claude para desarrollo interno mientras su propio Apple Foundation Model (~150B parámetros) solo puede manejar tareas triviales on-device. Todo lo que requiere reasoning avanzado se delega a Google Gemini (Siri), Claude (desarrollo interno) o OpenAI (ChatGPT integrado).

Qué significa: Apple, la empresa con mayor capitalización del sector tecnológico, no puede construir un frontier model propio competitivo. Para devs, esto redefine cómo se distribuye la IA en dispositivos: iOS 27 abrirá Siri a modelos de terceros via “Extensions”, y MCP nativo + App Intents significa que tu app puede ser un tool para agentes sin tocar una línea de MCP manualmente. La pregunta no es qué modelo usa Apple, sino qué modelo usará tu usuario.

Relacionado: Apple + Anthropic: estrategia multi-modelo

Herramientas y APIs

Vulnerabilidad crítica en framework de vLLM y MCP: RCE en servidores de inferencia

Se descubrió una vulnerabilidad en un framework compartido que usan vLLM y múltiples implementaciones de servidores MCP. La naturaleza del bug apunta a un problema de validación de inputs: un input malicioso puede escapar del sandbox y ejecutar código en el servidor (RCE).

vLLM es el servidor de inferencia más popular para modelos open-weights. Los servidores MCP están en producción en pipelines de agentes, coding assistants y sistemas RAG. El post en r/LocalLLaMA acumuló más de 160 upvotes y 33 comentarios en menos de 24 horas.

Qué significa: Si self-hostas modelos con vLLM o tienes servidores MCP en producción, actualiza inmediatamente. El vector más peligroso es: Agente comprometido → MCP server con framework vulnerable → RCE → acceso al host. La combinación de agentes que procesan inputs no trusteados + servidores MCP que exponen herramientas del sistema + un bug de validación es exactamente la cadena que un atacante necesita.

Acción inmediata:

pip install vllm --upgrade
# o si usas Docker:
docker pull vllm/vllm-openai:latest

Relacionado: Vulnerabilidad crítica en vLLM/MCP: análisis completo

Regulación y tendencias

EU AI Act entra en vigor en agosto: qué modelos llegan a Europa

Con GPT-5.6 Sol y Claude Mythos 5 bloqueados por controles de exportación de EE.UU., el EU AI Act entra en vigor en agosto de 2026 imponiendo obligaciones adicionales a cualquier equipo que despliegue IA en Europa. Los desarrolladores europeos se enfrentan a un doble filtro: el gobierno de EE.UU. decide qué modelos pueden exportarse, y la UE decide qué modelos pueden desplegarse legalmente.

Modelo	Estado fuera de EE.UU.	Impacto EU AI Act
GPT-5.6 Sol	Bloqueado	Sin acceso
Claude Mythos 5	Restringido	Sin acceso
Claude Fable 5	Retirado	Sin acceso
Gemini 3.5 Pro	Disponible	Sujeto a evaluación de conformidad

El resultado: Europa podría quedarse con acceso solo a modelos de segunda fila mientras el resto del mundo compite con frontier models. Para desarrolladores que construyen agentes de IA o usan LLMs en producción, la clave es que si tu sistema toma decisiones que afectan a personas (selección de candidatos, scoring crediticio, diagnóstico médico), entra en “alto riesgo” — lo que implica documentación extensa, auditorías y responsabilidad legal.

Relacionado: EU AI Act después de GPT-5.6 y Mythos: qué llega a Europa

Controles de exportación siguen: GPT-5.6 y Mythos 5 siguen bloqueados

El executive order de Trump mantiene sus efectos:

GPT-5.6 Sol ($5/$30): disponible solo para partners aprobados por el gobierno de EE.UU. OpenAI califica la restricción como “un paso a corto plazo” sin fecha concreta de acceso global.
Claude Mythos 5: bajo export control desde el 12 de junio. Anthropic trabaja para restaurar acceso, pero sin timeline definido.

Para desarrolladores fuera de EE.UU., las alternativas prácticas son GPT-5.5, Gemini 3.5 Pro, o modelos open-weight como DeepSeek V4 Pro.

Benchmarks

Claude Fable 5 lidera el AA Intelligence Index… si pudieras usarlo

Posición	Modelo	Score
1	Claude Fable 5 (Adaptive Max)	60.0
2	Claude Opus 4.8	56.0
3	GPT-5.5 (xhigh)	55.0
4	Claude Opus 4.7	54.0
5	GPT-5.5 (high)	53.0

El #1 del ranking está bloqueado por controles de exportación. El #2 y #3 están disponibles pero con precios frontier ($5/$25 y similar). Para equipos que no pueden acceder a Fable 5 o Mythos, la ecuación de coste-beneficio cambia radicalmente.

Papers destacados (semana 25 jun - 2 jul)

Autoregressive Boltzmann Generators

Yoshua Bengio y co-autores publican generadores de Boltzmann autoregresivos, una alternativa a los métodos de Monte Carlo tradicionales para muestreo de distribuciones complejas. Relevante para el diseño de arquitecturas de generación alternativas a la autoregresión pura.

Prompt Injection en screening de CVs con LLMs

Análisis de vectores de ataque de prompt injection en sistemas automatizados de selección de currículums. El paper demuestra que tanto inyecciones simples como multi-etapa logran manipular outputs con tasas de éxito superiores al 80%, exponiendo un vector de ataque crítico en sistemas de RRHH que usan LLMs.

Lo que leer esta semana

Antigravity 2.0: 96 agents create an OS — r/singularity, 1.594 upvotes, 303 comentarios. La discusión original que impulsó el análisis.
Vulnerability in vLLM/MCP framework — r/LocalLLaMA, 161 upvotes, 33 comentarios. Discusión técnica sobre vectores y mitigación.
Apple + Anthropic: the multi-model reality — Financial Post sobre la estrategia multi-modelo de Apple y el leak de Claude.md.
EU AI Act: prohibited and high-risk systems — Eversheds Sutherland. Guía práctica sobre qué sistemas entran en cada categoría de riesgo.
OpenAI on GPT-5.6 restrictions — Blog oficial de OpenAI sobre el lanzamiento de GPT-5.6 Sol y la restricción de acceso.
ArtificialAnalysis Intelligence Index — Ranking actualizado con Fable 5 en #1 (60.0) pero bloqueado por controles de exportación.

Próximo radar: 13 de julio de 2026.