Radar IA Semanal Julio 2026, Semana 1: Antigravity 2.0 crea un OS con 96 agentes, vulnerabilidad crítica en vLLM/MCP, Apple depende de Anthropic y el EU AI Act redefine qué modelos llegan a Europa
Resumen ejecutivo
Esta semana el ecosistema se movió en tres frentes: la capacidad de los agentes multi-agente dio un salto cualitativo, la seguridad de infraestructura open-weight se vio comprometida, y la regulación europea comenzó a materializar restricciones concretas:
- Google Antigravity 2.0: 96 agentes generan un sistema operativo funcional en 12 horas por menos de $1.000 en tokens (incluye soporte para Doom)
- Vulnerabilidad crítica en vLLM/MCP: un bug en el framework compartido por vLLM y servidores MCP permite ejecución remota de código (RCE) en sistemas de inferencia open-weight
- Apple + Anthropic: un leak de
CLAUDE.mden Apple Support revela que Apple depende de Claude para desarrollo interno mientras construye su propia estrategia multi-modelo - EU AI Act post-GPT-5.6/Mythos: la regulación entra en vigor en agosto, pero dos de los tres frontier models más potentes del mundo tienen acceso bloqueado para Europa
- Leaderboard: Claude Fable 5 lidera el ArtificialAnalysis Intelligence Index con 60.0 puntos, pero permanece bajo restricción gubernamental
- Papers: Bengio publica generadores de Boltzmann autoregresivos; nueva técnica de prompting injection en screening de CVs con LLMs
Modelos y providers
Google Antigravity 2.0: 96 agentes, un sistema operativo, 12 horas
Google DeepMind publicó Antigravity 2.0, un experimento donde 96 agentes LLM coordinados generaron un sistema operativo funcional desde cero. El SO resultante corre Doom — la métrica no-oficial de “es real” en software generado por IA.
| Métrica | Valor |
|---|---|
| Agentes coordinados | 96 |
| Tiempo de generación | ~12 horas |
| Coste en tokens | < $1.000 |
| Output | Sistema operativo funcional con scheduler, drivers, filesystem |
| Verificación | Ejecuta Doom |
Qué significa: Es la demostración más clara hasta la fecha de que los sistemas multi-agente pueden producir software funcional complejo, no solo snippets o funciones aisladas. El coste trivial (<$1.000) comparado con el output (un SO completo) redefine lo que los equipos de desarrollo pueden esperar de arquitecturas multi-agente. Para devs: esto no es un truco de marketing, es un salto cualitativo en la complejidad que un sistema multi-agente puede manejar.
Relacionado: Análisis completo de Antigravity 2.0
Apple + Anthropic: el leak de Claude.md y la estrategia multi-modelo
Un desarrollador encontró archivos CLAUDE.md dentro de la app Apple Support en abril de 2026. Apple los parcheó en horas, pero la señal es clara: Apple depende de Claude para desarrollo interno mientras su propio Apple Foundation Model (~150B parámetros) solo puede manejar tareas triviales on-device. Todo lo que requiere reasoning avanzado se delega a Google Gemini (Siri), Claude (desarrollo interno) o OpenAI (ChatGPT integrado).
Qué significa: Apple, la empresa con mayor capitalización del sector tecnológico, no puede construir un frontier model propio competitivo. Para devs, esto redefine cómo se distribuye la IA en dispositivos: iOS 27 abrirá Siri a modelos de terceros via “Extensions”, y MCP nativo + App Intents significa que tu app puede ser un tool para agentes sin tocar una línea de MCP manualmente. La pregunta no es qué modelo usa Apple, sino qué modelo usará tu usuario.
Relacionado: Apple + Anthropic: estrategia multi-modelo
Herramientas y APIs
Vulnerabilidad crítica en framework de vLLM y MCP: RCE en servidores de inferencia
Se descubrió una vulnerabilidad en un framework compartido que usan vLLM y múltiples implementaciones de servidores MCP. La naturaleza del bug apunta a un problema de validación de inputs: un input malicioso puede escapar del sandbox y ejecutar código en el servidor (RCE).
vLLM es el servidor de inferencia más popular para modelos open-weights. Los servidores MCP están en producción en pipelines de agentes, coding assistants y sistemas RAG. El post en r/LocalLLaMA acumuló más de 160 upvotes y 33 comentarios en menos de 24 horas.
Qué significa: Si self-hostas modelos con vLLM o tienes servidores MCP en producción, actualiza inmediatamente. El vector más peligroso es: Agente comprometido → MCP server con framework vulnerable → RCE → acceso al host. La combinación de agentes que procesan inputs no trusteados + servidores MCP que exponen herramientas del sistema + un bug de validación es exactamente la cadena que un atacante necesita.
Acción inmediata:
pip install vllm --upgrade
# o si usas Docker:
docker pull vllm/vllm-openai:latest
Relacionado: Vulnerabilidad crítica en vLLM/MCP: análisis completo
Regulación y tendencias
EU AI Act entra en vigor en agosto: qué modelos llegan a Europa
Con GPT-5.6 Sol y Claude Mythos 5 bloqueados por controles de exportación de EE.UU., el EU AI Act entra en vigor en agosto de 2026 imponiendo obligaciones adicionales a cualquier equipo que despliegue IA en Europa. Los desarrolladores europeos se enfrentan a un doble filtro: el gobierno de EE.UU. decide qué modelos pueden exportarse, y la UE decide qué modelos pueden desplegarse legalmente.
| Modelo | Estado fuera de EE.UU. | Impacto EU AI Act |
|---|---|---|
| GPT-5.6 Sol | Bloqueado | Sin acceso |
| Claude Mythos 5 | Restringido | Sin acceso |
| Claude Fable 5 | Retirado | Sin acceso |
| Gemini 3.5 Pro | Disponible | Sujeto a evaluación de conformidad |
El resultado: Europa podría quedarse con acceso solo a modelos de segunda fila mientras el resto del mundo compite con frontier models. Para desarrolladores que construyen agentes de IA o usan LLMs en producción, la clave es que si tu sistema toma decisiones que afectan a personas (selección de candidatos, scoring crediticio, diagnóstico médico), entra en “alto riesgo” — lo que implica documentación extensa, auditorías y responsabilidad legal.
Relacionado: EU AI Act después de GPT-5.6 y Mythos: qué llega a Europa
Controles de exportación siguen: GPT-5.6 y Mythos 5 siguen bloqueados
El executive order de Trump mantiene sus efectos:
- GPT-5.6 Sol ($5/$30): disponible solo para partners aprobados por el gobierno de EE.UU. OpenAI califica la restricción como “un paso a corto plazo” sin fecha concreta de acceso global.
- Claude Mythos 5: bajo export control desde el 12 de junio. Anthropic trabaja para restaurar acceso, pero sin timeline definido.
Para desarrolladores fuera de EE.UU., las alternativas prácticas son GPT-5.5, Gemini 3.5 Pro, o modelos open-weight como DeepSeek V4 Pro.
Benchmarks
Claude Fable 5 lidera el AA Intelligence Index… si pudieras usarlo
| Posición | Modelo | Score |
|---|---|---|
| 1 | Claude Fable 5 (Adaptive Max) | 60.0 |
| 2 | Claude Opus 4.8 | 56.0 |
| 3 | GPT-5.5 (xhigh) | 55.0 |
| 4 | Claude Opus 4.7 | 54.0 |
| 5 | GPT-5.5 (high) | 53.0 |
El #1 del ranking está bloqueado por controles de exportación. El #2 y #3 están disponibles pero con precios frontier ($5/$25 y similar). Para equipos que no pueden acceder a Fable 5 o Mythos, la ecuación de coste-beneficio cambia radicalmente.
Papers destacados (semana 25 jun - 2 jul)
Autoregressive Boltzmann Generators
Yoshua Bengio y co-autores publican generadores de Boltzmann autoregresivos, una alternativa a los métodos de Monte Carlo tradicionales para muestreo de distribuciones complejas. Relevante para el diseño de arquitecturas de generación alternativas a la autoregresión pura.
Prompt Injection en screening de CVs con LLMs
Análisis de vectores de ataque de prompt injection en sistemas automatizados de selección de currículums. El paper demuestra que tanto inyecciones simples como multi-etapa logran manipular outputs con tasas de éxito superiores al 80%, exponiendo un vector de ataque crítico en sistemas de RRHH que usan LLMs.
Lo que leer esta semana
- Antigravity 2.0: 96 agents create an OS — r/singularity, 1.594 upvotes, 303 comentarios. La discusión original que impulsó el análisis.
- Vulnerability in vLLM/MCP framework — r/LocalLLaMA, 161 upvotes, 33 comentarios. Discusión técnica sobre vectores y mitigación.
- Apple + Anthropic: the multi-model reality — Financial Post sobre la estrategia multi-modelo de Apple y el leak de Claude.md.
- EU AI Act: prohibited and high-risk systems — Eversheds Sutherland. Guía práctica sobre qué sistemas entran en cada categoría de riesgo.
- OpenAI on GPT-5.6 restrictions — Blog oficial de OpenAI sobre el lanzamiento de GPT-5.6 Sol y la restricción de acceso.
- ArtificialAnalysis Intelligence Index — Ranking actualizado con Fable 5 en #1 (60.0) pero bloqueado por controles de exportación.
Próximo radar: 13 de julio de 2026.