Gemini 3.1 Pro: el modelo que supera a Claude Opus en razonamiento y tiene 2M de contexto

El nuevo rey del razonamiento

Google DeepMind publicó el Model Card de Gemini 3.1 Pro en febrero, y los números son contundentes:

GPQA Diamond: 94.3% — supera a Claude Opus 4.7 (92%) por primera vez
SWE-bench Verified: 80.6% — cerca de Opus (83.5%), muy por encima de GPT-5 (~76%)
Contexto: 2M tokens — el doble que su predecesor, 10x más que GPT-5
Output: 64K tokens — el output más largo del mercado

Después de meses donde Opus 4.7 dominaba el narrative de “mejor modelo”, Google respondió con un modelo que lo supera en el benchmark de razonamiento más respetado. Esto cambia las comparativas.

Specs completas

Spec	Valor
Parámetros	~1T MoE (estimado)
Contexto	2M tokens
Output máximo	64K tokens
Input modalities	Texto, imagen, audio, video, PDF
Output modalities	Texto
Knowledge cutoff	Diciembre 2025
Licencia	Propietaria
Precio input	$2.50/1M
Precio output	$10.00/1M
Precio cached	$0.25/1M

La arquitectura MoE (~1T parámetros totales) es similar a la estrategia de DeepSeek: muchos parámetros, pocos activos por token, lo que permite eficiencia a escala.

Benchmarks: los números que importan

Razonamiento

Benchmark	Gemini 3.1 Pro	Claude Opus 4.7	GPT-5
GPQA Diamond	94.3% ⭐	92%	~88%
ARC-AGI-2	77.1%	~65%	~60%
MMLU-Pro	93.8%	~90%	~88%
Humanity’s Last Exam	44.4%	~40%	~38%

Gemini 3.1 Pro domina en razonamiento. Es el primer modelo que supera a Opus 4.7 en GPQA Diamond de forma clara. ARC-AGI-2 a 77.1% es un salto masivo desde el 31.1% de Gemini 3 Pro.

Coding

Benchmark	Gemini 3.1 Pro	Claude Opus 4.7	GPT-5
SWE-bench Verified	80.6%	83.5% ⭐	~76%
LiveCodeBench	78.9%	~75%	~72%
Terminal-Bench 2.0	68.5%	~65%	~60%

Opus sigue ganando en SWE-bench, pero el gap se cerró significativamente (83.5% vs 80.6%). En coding competitivo y agentic terminal, Gemini 3.1 Pro toma ventaja.

Multimodal

Benchmark	Score
MMMU-Pro	80.5%
MRCR v2 (128K)	84.9%

Gemini 3.1 Pro sigue siendo el mejor modelo multimodal. Si tu caso de uso implica imagen, video o documentos visuales, no hay competencia real.

Contexto de 2M tokens: ¿es útil de verdad?

Gemini 3.1 Pro expande su contexto a 2M tokens. El doble que Gemini 2.5 Pro (1M), 10x más que GPT-5 (128K), y 10x más que Opus 4.7 (200K).

Pero la pregunta real es: ¿mantiene la calidad a 2M?

El benchmark MRCR v2 (needle-in-a-haystack a 128K) da 84.9%. Eso es bueno pero solo testea hasta 128K. No hay datos públicos de calidad a 2M tokens completos.

Mi predicción basada en patrones anteriores:

<256K: calidad consistente (confianza alta)
256K-512K: degradación ligera (confianza media)
512K-1M: degradación moderada (confianza baja)
1M-2M: probablemente no fiable para producción

Es lo mismo que vimos con Gemini 2.5 Pro y su “1M tokens”: el número es real, la calidad a ese tamaño no tanto.

Deep Think mode

Gemini 3.1 Pro incluye “Deep Think” mode para tareas de razonamiento complejo. Curiosamente, el Model Card nota que Deep Think rindió peor que el modo estándar en el dominio de ciberseguridad del Frontier Safety Framework. Esto sugiere que más compute no siempre es mejor — a veces overthinking empeora resultados.

Deep Think es útil para:

Razonamiento multi-step complejo
Problemas matemáticos
Análisis de documentos largos

Pero no es un “mejor en todo” button.

Pricing: competitivo pero no el más barato

Modelo	Input/1M	Output/1M	Cached/1M
Gemini 3.1 Pro	$2.50	$10.00	$0.25
Claude Opus 4.7	$3.00	$15.00	N/A
GPT-5	$2.00	$10.00	N/A
DeepSeek V4 Pro	$0.55	$2.19	N/A

Gemini 3.1 Pro se posiciona entre GPT-5 y Opus en precio, pero superior en varios benchmarks. La cached input a $0.25/1M es un plus significativo para workflows de RAG y re-procesamiento.

Qué significa para el landscape competitivo

El top 3 se reordena

Ranking	Razonamiento	Coding	Contexto	Multimodal
#1	Gemini 3.1 Pro (94.3%)	Opus 4.7 (83.5%)	Gemini 3.1 Pro (2M)	Gemini 3.1 Pro
#2	Opus 4.7 (92%)	Gemini 3.1 Pro (80.6%)	Gemini 2.5 Pro (1M)	Opus 4.7
#3	GPT-5 (~88%)	GPT-5 (~76%)	Opus 4.7 (200K)	GPT-5

El landscape pasa de “Opus dominante” a “tres modelos con fortalezas diferentes”:

Razonamiento + multimodal: Gemini 3.1 Pro
Coding: Opus 4.7
Equilibrio + ecosistema: GPT-5

Los verdaderos perdedores: modelos mid-tier

Cuando Gemini 3.1 Pro ofrece GPQA 94.3% a $2.50/$10, modelos como Claude Sonnet 4 y GPT-5-turbo se quedan en un espacio incómodo: no son significativamente más baratos, y son notablemente menos capaces.

Casos de uso actualizados

Usa Gemini 3.1 Pro si…

Necesitas razonamiento profundo (GPQA 94.3%)
Trabajas con contextos muy largos (>200K tokens)
Tu caso de uso es multimodal (video, imagen, audio)
Quieres el mejor modelo para investigación y análisis
Haces RAG sobre corpus grandes (cached input barato)

Usa Claude Opus 4.7 si…

Tu prioridad es coding de producción (SWE-bench 83.5%)
Usas MCP y agents con tools
Prefieres API estable (Google tiene más timeouts y rate limits)
Trabajas en el ecosistema Anthropic

Usa GPT-5 si…

Necesitas fine-tuning (único de los tres que lo soporta)
Usas structured output complejo
Trabajas en el ecosistema OpenAI (Assistants, GPTs)
Quieres equilibrio entre calidad, precio y estabilidad

El routing óptimo (actualizado mayo 2026)

Razonamiento profundo → Gemini 3.1 Pro ($2.50/$10)
Coding producción → Opus 4.7 ($3/$15)
Multimodal → Gemini 3.1 Pro
Contexto largo → Gemini 3.1 Pro
Análisis/escritura → GPT-5 ($2/$10) o Gemini 3.1 Pro
Clasificación/rutina → DeepSeek V4 Pro ($0.55/$2.19)

Lo que queda por ver

Estabilidad API: Gemini históricamente sufre de rate limits y timeouts. Si Gemini 3.1 Pro mantiene estos problemas, su ventaja en benchmarks no se traduce en ventaja en producción.
GPQA 94.3% en la práctica: Los benchmarks son benchmarks. La experiencia real de uso dirá si esa ventaja se siente.
Respuesta de Anthropic: Anthropic no se va a quedar quieta. Opus 4.8 o 5.0 podría recuperar la corona.
OpenAI: GPT-5.5 en preview podría cambiar las reglas de nuevo.

Lectura relacionada

Datos del Model Card oficial de Google DeepMind (Feb 2026). Pricing de AI Flash Report.