Item: Gemini 2.5 Pro
Rating: 4
Author: GPT Diffusion

Metodología

Evaluación basada en 4+ semanas de uso vía API (Google AI Studio + Vertex AI):

Benchmarks públicos: GPQA Diamond, MMLU-Pro, LiveCodeBench, Artificial Analysis
Tests propios: prompts de coding, razonamiento, multimodal y tasks de contexto largo (50K-200K tokens)
Precios: API oficial mayo 2026
Entorno: llamadas API desde scripts Python, notebooks Jupyter, y integración con workflows de producción

Ficha técnica

Proveedor: Google DeepMind
Parámetros: No publicado (estimado ~500B+)
Contexto: 1M tokens (el más alto del mercado)
Modalidades: Texto, imagen, audio, video
Pricing API: Input $1.25/1M (≤200K), $2.50/1M (>200K) / Output $10/1M
Disponibilidad: Google AI Studio (free tier), Vertex AI, API

Lo bueno

1M tokens de contexto — y funciona de verdad

La ventaja competitiva más clara de Gemini 2.5 Pro. No es marketing: puede procesar documentos de 500K+ tokens y mantener coherencia. Lo he testeado con:

Codebase completo de ~180K tokens: identifica dependencias entre archivos correctamente
PDFs de investigación de 200+ páginas: extrae datos de secciones específicas sin perder contexto
Conversaciones largas (50+ turnos): mantiene consistencia donde otros modelos alucinan

Ningún otro modelo frontier ofrece esto. Claude Opus 4.7 tiene 200K. GPT-5 tiene 128K. Gemini 2.5 Pro quintuplica al segundo.

Multimodal superior

Gemini 2.5 Pro es el mejor modelo multimodal disponible:

Video: analiza videos de hasta 1 hora con timestamping preciso
Imagen: comprensión espacial superior (diagramas, flowcharts, UIs)
Audio: transcripción + análisis de audio largo

Si tu caso de uso implica video o documentos visuales complejos, Gemini 2.5 Pro es la elección obvia.

Precio competitivo

A $1.25/1M input (≤200K), es más barato que GPT-5 ($2/1M) y mucho más barato que Opus 4.7 ($3/1M). El output a $10/1M iguala a GPT-5. La relación calidad-precio es excelente.

Free tier generoso

Google AI Studio ofrece un free tier que permite testing serio. No es producción, pero es suficiente para evaluar el modelo antes de comprometerse con Vertex AI.

Lo malo

Rate limits — el talón de Aquiles

Gemini 2.5 Pro sufre de rate limits agresivos:

Free tier: 5 RPM, 25 RPD en el modelo Pro
Pay-as-you-go (AI Studio): 10 RPM, límites diarios variables
Vertex AI: mejor, pero la configuración es más compleja

Para un modelo cuyo caso de uso principal es procesar documentos largos (que consumen muchos tokens por request), 5 RPM es insuficiente. Procesar 100 documentos requiere 20 minutos en free tier. Es como tener un coche deportivo con un limitador de velocidad a 30 km/h.

API inestable

La API de Gemini tiene más errores 429, 500 y timeouts que OpenAI o Anthropic:

429 (rate limit): incluso dentro de los límites declarados
500 (server error): ~2-3% de requests fallan sin razón
Timeouts: requests de contexto largo (>100K tokens) timeout con frecuencia
Respuestas truncadas: a veces corta la respuesta sin indicar truncamiento

No es imaginarlo. Es consistente a lo largo de semanas de uso.

Inferior en coding

Comparado con Claude Opus 4.7 (y a veces GPT-5), Gemini 2.5 Pro es notablemente peor en coding:

SWE-bench: ~72% vs 83.5% Opus
Tendencia a generar código que compila pero tiene bugs lógicos sutiles
Menos consistencia en refactoring multi-archivo

Para coding como tarea principal, no es la mejor elección.

JSON/structured output inconsistente

El modo JSON de Gemini es menos fiable que el de OpenAI o Anthropic:

A veces incluye texto fuera del JSON
Schema adherence es peor con schemas complejos
response_mime_type: "application/json" ayuda, pero no resuelve todo

Benchmarks

Benchmark	Score	Nota
GPQA Diamond	~78%	Debajo de Opus 4.7 (92%) y GPT-5 (~88%)
MMLU-Pro	89%	Competitivo
LiveCodeBench	70%	Debajo de Opus y GPT-5
SWE-bench Verified	~72%	Debajo de Opus (83.5%)
Artificial Analysis Elo	~1330	Top 10, no top 3

Los números confirman la impresión práctica: excelente modelo, pero no el mejor en ningún benchmark individual. Su ventaja es el contexto + multimodal.

Casos de uso recomendados

✅ Ideal para

Análisis de documentos largos (100+ páginas, codebases enteros)
Procesamiento de video (resúmenes, extracción de información)
RAG sobre corpus grandes (el contexto de 1M elimina la necesidad de chunking complejo)
Análisis visual (diagramas, screenshots, UIs)
Research multi-fuente (sintetizar 10+ papers en un análisis)

⚠️ Aceptable pero no óptimo

Coding (mejor usar Opus o GPT-5)
Structured output intensivo (mejor OpenAI)
Producción high-throughput (rate limits)

❌ No recomendado para

Alta frecuencia de requests (5-10 RPM es insuficiente)
Coding como tarea principal (Opus es 15% mejor en SWE-bench)
Latencia baja crítica (los requests largos son lentos)
Producción sin fallback (API inestable)

Comparación con alternativas

Aspecto	Gemini 2.5 Pro	GPT-5	Claude Opus 4.7
Contexto	1M ⭐	128K	200K
Coding	~72%	~76%	83.5% ⭐
Razonamiento	~78%	~88% ⭐	92% ⭐
Multimodal	⭐ Mejor	Bueno	Bueno
Precio input	$1.25 ⭐	$2.00	$3.00
Estabilidad API	⚠️ Inestable	✅ Estable	✅ Estable
Rate limits	⚠️ Agresivos	✅ Generosos	✅ Generosos

Veredicto

Rating: 4/5

Gemini 2.5 Pro es el mejor modelo del mercado para contexto largo y multimodal. Su ventana de 1M tokens abre casos de uso que otros modelos simplemente no pueden manejar. El pricing es competitivo y el free tier permite evaluación real.

Pero sus rate limits agresivos y API inestable le impiden ser el modelo universal que podría ser. Es como tener un Ferrari al que solo puedes conducir 10 minutos al día.

Recomendación: Úsalo como herramienta especializada para documentos largos y multimodal. Para el resto, mantén GPT-5 u Opus como modelo principal. El mejor setup es un router que envíe tareas de contexto largo a Gemini y coding a Opus.

Lectura relacionada

Precios y benchmarks actualizados a mayo 2026.

Review: Gemini 2.5 Pro — el modelo con más contexto del mercado