Gemini 3.1 Pro: el modelo que supera a Claude Opus en razonamiento y tiene 2M de contexto
El nuevo rey del razonamiento
Google DeepMind publicó el Model Card de Gemini 3.1 Pro en febrero, y los números son contundentes:
- GPQA Diamond: 94.3% — supera a Claude Opus 4.7 (92%) por primera vez
- SWE-bench Verified: 80.6% — cerca de Opus (83.5%), muy por encima de GPT-5 (~76%)
- Contexto: 2M tokens — el doble que su predecesor, 10x más que GPT-5
- Output: 64K tokens — el output más largo del mercado
Después de meses donde Opus 4.7 dominaba el narrative de “mejor modelo”, Google respondió con un modelo que lo supera en el benchmark de razonamiento más respetado. Esto cambia las comparativas.
Specs completas
| Spec | Valor |
|---|---|
| Parámetros | ~1T MoE (estimado) |
| Contexto | 2M tokens |
| Output máximo | 64K tokens |
| Input modalities | Texto, imagen, audio, video, PDF |
| Output modalities | Texto |
| Knowledge cutoff | Diciembre 2025 |
| Licencia | Propietaria |
| Precio input | $2.50/1M |
| Precio output | $10.00/1M |
| Precio cached | $0.25/1M |
La arquitectura MoE (~1T parámetros totales) es similar a la estrategia de DeepSeek: muchos parámetros, pocos activos por token, lo que permite eficiencia a escala.
Benchmarks: los números que importan
Razonamiento
| Benchmark | Gemini 3.1 Pro | Claude Opus 4.7 | GPT-5 |
|---|---|---|---|
| GPQA Diamond | 94.3% ⭐ | 92% | ~88% |
| ARC-AGI-2 | 77.1% | ~65% | ~60% |
| MMLU-Pro | 93.8% | ~90% | ~88% |
| Humanity’s Last Exam | 44.4% | ~40% | ~38% |
Gemini 3.1 Pro domina en razonamiento. Es el primer modelo que supera a Opus 4.7 en GPQA Diamond de forma clara. ARC-AGI-2 a 77.1% es un salto masivo desde el 31.1% de Gemini 3 Pro.
Coding
| Benchmark | Gemini 3.1 Pro | Claude Opus 4.7 | GPT-5 |
|---|---|---|---|
| SWE-bench Verified | 80.6% | 83.5% ⭐ | ~76% |
| LiveCodeBench | 78.9% | ~75% | ~72% |
| Terminal-Bench 2.0 | 68.5% | ~65% | ~60% |
Opus sigue ganando en SWE-bench, pero el gap se cerró significativamente (83.5% vs 80.6%). En coding competitivo y agentic terminal, Gemini 3.1 Pro toma ventaja.
Multimodal
| Benchmark | Score |
|---|---|
| MMMU-Pro | 80.5% |
| MRCR v2 (128K) | 84.9% |
Gemini 3.1 Pro sigue siendo el mejor modelo multimodal. Si tu caso de uso implica imagen, video o documentos visuales, no hay competencia real.
Contexto de 2M tokens: ¿es útil de verdad?
Gemini 3.1 Pro expande su contexto a 2M tokens. El doble que Gemini 2.5 Pro (1M), 10x más que GPT-5 (128K), y 10x más que Opus 4.7 (200K).
Pero la pregunta real es: ¿mantiene la calidad a 2M?
El benchmark MRCR v2 (needle-in-a-haystack a 128K) da 84.9%. Eso es bueno pero solo testea hasta 128K. No hay datos públicos de calidad a 2M tokens completos.
Mi predicción basada en patrones anteriores:
- <256K: calidad consistente (confianza alta)
- 256K-512K: degradación ligera (confianza media)
- 512K-1M: degradación moderada (confianza baja)
- 1M-2M: probablemente no fiable para producción
Es lo mismo que vimos con Gemini 2.5 Pro y su “1M tokens”: el número es real, la calidad a ese tamaño no tanto.
Deep Think mode
Gemini 3.1 Pro incluye “Deep Think” mode para tareas de razonamiento complejo. Curiosamente, el Model Card nota que Deep Think rindió peor que el modo estándar en el dominio de ciberseguridad del Frontier Safety Framework. Esto sugiere que más compute no siempre es mejor — a veces overthinking empeora resultados.
Deep Think es útil para:
- Razonamiento multi-step complejo
- Problemas matemáticos
- Análisis de documentos largos
Pero no es un “mejor en todo” button.
Pricing: competitivo pero no el más barato
| Modelo | Input/1M | Output/1M | Cached/1M |
|---|---|---|---|
| Gemini 3.1 Pro | $2.50 | $10.00 | $0.25 |
| Claude Opus 4.7 | $3.00 | $15.00 | N/A |
| GPT-5 | $2.00 | $10.00 | N/A |
| DeepSeek V4 Pro | $0.55 | $2.19 | N/A |
Gemini 3.1 Pro se posiciona entre GPT-5 y Opus en precio, pero superior en varios benchmarks. La cached input a $0.25/1M es un plus significativo para workflows de RAG y re-procesamiento.
Qué significa para el landscape competitivo
El top 3 se reordena
| Ranking | Razonamiento | Coding | Contexto | Multimodal |
|---|---|---|---|---|
| #1 | Gemini 3.1 Pro (94.3%) | Opus 4.7 (83.5%) | Gemini 3.1 Pro (2M) | Gemini 3.1 Pro |
| #2 | Opus 4.7 (92%) | Gemini 3.1 Pro (80.6%) | Gemini 2.5 Pro (1M) | Opus 4.7 |
| #3 | GPT-5 (~88%) | GPT-5 (~76%) | Opus 4.7 (200K) | GPT-5 |
El landscape pasa de “Opus dominante” a “tres modelos con fortalezas diferentes”:
- Razonamiento + multimodal: Gemini 3.1 Pro
- Coding: Opus 4.7
- Equilibrio + ecosistema: GPT-5
Los verdaderos perdedores: modelos mid-tier
Cuando Gemini 3.1 Pro ofrece GPQA 94.3% a $2.50/$10, modelos como Claude Sonnet 4 y GPT-5-turbo se quedan en un espacio incómodo: no son significativamente más baratos, y son notablemente menos capaces.
Casos de uso actualizados
Usa Gemini 3.1 Pro si…
- Necesitas razonamiento profundo (GPQA 94.3%)
- Trabajas con contextos muy largos (>200K tokens)
- Tu caso de uso es multimodal (video, imagen, audio)
- Quieres el mejor modelo para investigación y análisis
- Haces RAG sobre corpus grandes (cached input barato)
Usa Claude Opus 4.7 si…
- Tu prioridad es coding de producción (SWE-bench 83.5%)
- Usas MCP y agents con tools
- Prefieres API estable (Google tiene más timeouts y rate limits)
- Trabajas en el ecosistema Anthropic
Usa GPT-5 si…
- Necesitas fine-tuning (único de los tres que lo soporta)
- Usas structured output complejo
- Trabajas en el ecosistema OpenAI (Assistants, GPTs)
- Quieres equilibrio entre calidad, precio y estabilidad
El routing óptimo (actualizado mayo 2026)
Razonamiento profundo → Gemini 3.1 Pro ($2.50/$10)
Coding producción → Opus 4.7 ($3/$15)
Multimodal → Gemini 3.1 Pro
Contexto largo → Gemini 3.1 Pro
Análisis/escritura → GPT-5 ($2/$10) o Gemini 3.1 Pro
Clasificación/rutina → DeepSeek V4 Pro ($0.55/$2.19)
Lo que queda por ver
- Estabilidad API: Gemini históricamente sufre de rate limits y timeouts. Si Gemini 3.1 Pro mantiene estos problemas, su ventaja en benchmarks no se traduce en ventaja en producción.
- GPQA 94.3% en la práctica: Los benchmarks son benchmarks. La experiencia real de uso dirá si esa ventaja se siente.
- Respuesta de Anthropic: Anthropic no se va a quedar quieta. Opus 4.8 o 5.0 podría recuperar la corona.
- OpenAI: GPT-5.5 en preview podría cambiar las reglas de nuevo.
Lectura relacionada
- Gemini 2.5 Pro: review completa
- Claude Opus 4.7 vs GPT-5
- DeepSeek V4 Pro vs GPT-5 vs Claude Opus 4.7
- Guía de modelos LLM para devs en 2026
- Guía de costes LLM
Datos del Model Card oficial de Google DeepMind (Feb 2026). Pricing de AI Flash Report.