¿Cuánto cuesta realmente usar IA para programar? Las lecciones de Uber y su presupuesto quemado
El caso Uber: números que duelen
En diciembre 2025, Uber desplegó Claude Code para sus equipos de ingeniería. Cuatro meses después, habían quemado su presupuesto anual completo de IA para coding.
Los números:
- 95% de los ingenieros usan herramientas de IA mensualmente
- 70% del código commiteado viene de IA
- $500-2,000 por ingeniero al mes en costes de API
- $3.4B de presupuesto R&D anual de Uber (el overrun de IA es una fracción, pero el patrón escala)
Esto no es un fracaso. Es un éxito descontrolado. La adopción fue tan alta que el presupuesto no pudo seguir el ritmo. Pero las lecciones son críticas para cualquier empresa que esté considerando IA para desarrollo.
Por qué se fue de presupuesto
El modelo SaaS no aplica
La mayoría de empresas presupuestan herramientas de IA como si fueran SaaS tradicional: $20-50/mes por seat. Pero los coding agents como Claude Code o Codex no funcionan así. El coste real depende de:
- Intensidad de uso, no número de seats
- Tipo de tareas: autocomplete barato vs. agentic coding caro
- Modelo subyacente: Opus ($15/1M output) vs. Sonnet ($4/1M output) vs. Haiku ($1/1M output)
Un ingeniero que usa Claude Code para refactoring multi-archivo con Opus puede quemar $500 en un día. El mismo ingenío con Sonnet gasta $50.
El fenómeno “token maxing”
Si el uso de IA se convierte en métrica de rendimiento, los ingenieros naturalmente maximizan su uso de tokens. No por productividad real, sino por apariencia de productividad. Es el mismo problema que las líneas de código como métrica: optimizar la métrica ≠ optimizar el output.
Agentic vs. autocomplete: el delta de coste
| Modo | Herramienta ejemplo | Coste/ingeniero/mes | Productividad real |
|---|---|---|---|
| Autocomplete | Copilot | $10-20 | +10-20% velocidad |
| Chat asistido | ChatGPT/Claude chat | $20-50 | +20-40% velocidad |
| Agentic coding | Claude Code, Codex | $200-2,000 | +50-200% velocidad |
| Agentic multi-step | Opus con tools complejos | $500-5,000 | Potencial alto, ROI incierto |
El salto de chat a agentic multiplica el coste por 10x. La productividad no se multiplica por 10x. Al menos, no de forma medible todavía.
Lo que nadie está midiendo
ROI real vs. vibes
El elephant en la sala: nadie tiene una métrica fiable de ROI en coding agents. Uber tiene 70% de código generado por IA, pero:
- ¿Ese código se mantiene igual de bien que el código humano?
- ¿Los bugs aumentaron o disminuyeron?
- ¿El tiempo de review aumentó?
- ¿La deuda técnica creció?
La mayoría de empresas operan en “vibes”: los ingenieros se sienten más productivos, por lo tanto lo son. Pero los datos objetivos son escasos.
Costes ocultos
El coste de API es solo la punta:
- Review time: si el código AI necesita más review, estás pagando dos veces
- Debugging: código AI con bugs sutiles cuesta más de arreglar que código humano con bugs obvios
- Context switching: saltar entre tu código y el código AI tiene coste cognitivo
- Training: la curva de aprendizaje de los agentes no es trivial
Cómo presupuestar IA para coding sin quemarte
Regla práctica: el 3-5-10
Para un equipo de 10 ingenieros:
| Escenario | Coste/mes | Cuándo |
|---|---|---|
| Conservador | $3,000-5,000 | Chat asistido + autocomplete, agentes solo para tareas específicas |
| Moderado | $5,000-10,000 | Agentes para la mayoría de tareas, modelos mid-tier (Sonnet, GPT-5-turbo) |
| Agresivo | $10,000-20,000 | Agentes con frontier para todo, similar al patrón Uber |
Regla: empieza en conservador, mide ROI durante 2 meses, escala a moderado si los datos lo justifican.
Routing de modelos: la optimización más importante
El single hack más efectivo para controlar costes sin sacrificar calidad:
Tarea rutinaria (boilerplate, tests, docs)
→ Sonnet 4 ($0.60/$4) o Haiku ($0.25/$1)
Tarea estándar (features, bug fixes)
→ Sonnet 4 ($0.60/$4) o GPT-5-turbo
Tarea compleja (arquitectura, refactoring multi-archivo)
→ Opus 4.7 ($3/$15) o GPT-5 ($2/$10)
Con este routing, el coste medio baja un 60-70% comparado con usar Opus para todo.
Budget caps por ingeniero
Implementa limits:
- Soft cap ($500/mes): alerta al ingeniero y al manager
- Hard cap ($1,500/mes): requiere aprobación para seguir
- Review automático si el coste supera $2,000/mes
Esto previene el “token maxing” y da visibilidad del gasto real.
¿Qué significa esto para ti?
Si eres un dev freelance o pequeño equipo
No tienes el problema de Uber. Tu escala es diferente:
- $50-100/mes es suficiente para un dev individual con routing inteligente
- Usa DeepSeek V4 Pro ($0.55/$2.19) para la mayoría de tareas
- Reserva Opus o GPT-5 para las tareas donde importa la calidad máxima
- Los modelos gratuitos (Step 3.5 Flash, GLM-4.5-Air) cubren clasificación y extracción
Si gestionas un equipo mediano (10-50 devs)
- Presupuesta $300-500/ingeniero/mes como baseline
- Implementa routing de modelos desde día 1
- Mide ROI con métricas objetivas (cycle time, bugs, review time)
- Empieza con Sonnet 4, escala a Opus solo donde se justifique
Si eres enterprise (100+ devs)
- El caso Uber es tu warning. Planifica para $1,000-2,000/ingeniero/mes en adopción completa
- Negocia pricing enterprise con Anthropic y OpenAI
- Invierte en un router interno que optimice costes automáticamente
- Mide. Mide. Mide. Sin datos de ROI, estás quemando dinero.
El veredicto
La IA para coding no es barata. Es cara pero potentemente productiva cuando se usa bien. El error de Uber no fue usar IA, fue presupuestarla como SaaS tradicional.
La receta: routing inteligente + budget caps + medición real de ROI. Con eso, puedes tener 80% de la productividad a 20% del coste de usar frontier para todo.
Lectura relacionada
- Guía de costes LLM: tokens, routing y proveedores
- AgentDiet: reducir costes en agentes de coding
- Pith: reducir costes de tokens un 30%
- Claude Opus 4.7 vs GPT-5
Datos de Uber via r/artificial, mayo 2026. Pricing de modelos actualizado a mayo 2026.