Gemini 3.5 Pro: por qué la comunidad dice que decepciona (y qué datos lo confirman)

TL;DR

Google lanzó Gemini 3.5 (Flash primero, Pro después) entre finales de mayo y junio de 2026.
La recepción en la comunidad de desarrolladores fue notablemente negativa: se acumulan posts criticando su rendimiento en coding, razonamiento básico y comparaciones con frontier models de la competencia.
Un modelo de 2B parámetros de Qwen superó a Gemini 3.5 Flash en una pregunta de suma básica. No es un detalle menor: es una bandera roja sobre la fiabilidad del razonamiento.
Gemini 3.5 Pro llegó tarde y, cuando lo hizo, los usuarios lo encontraron por debajo de GPT-5.6 Sol y Claude Mythos 5 en las tareas que importan a devs.
Google tiene el contexto más largo del mercado (2M tokens), pero el contexto no compensa si el modelo falla en lo fundamental.

Qué lanzó Google exactamente

La serie Gemini 3.5 llegó en dos fases:

Modelo	Fecha aprox.	Posicionamiento	Estado
Gemini 3.5 Flash	Finales mayo 2026	Rápido, barato, coding	Disponible en Cursor, API
Gemini 3.5 Pro	Junio 2026	Flagship, razonamiento	Disponible con retraso

Flash se integró rápidamente en herramientas como Cursor (disponible desde junio), pero los desarrolladores que lo probaron en coding real reportaron resultados mediocres.

La evidencia del descontento

El sentimiento negativo no es una impresión subjetiva. Se puede medir en la señal de Reddit:

Post (r/subreddit)	Score	Comentarios
”Breaking news! Gemini 3.5 pro so ass the US government intervened to keep it out of the US!” (r/singularity)	598	63
”Gemini 3.5 flash is not that great at coding” (r/singularity)	237	79
”2B Qwen model beats Gemini 3.5 Flash on a basic addition question” (r/LocalLLaMA)	85	22
”Well at least openai announced model where gemini 3.5 pro??” (r/Bard)	73	20
”Waiting for Gemini 3.5 Pro Like” (r/GeminiAI)	57	9

El patrón es claro: tres frentes de crítica simultáneos — coding mediocre, fallos de razonamiento elemental, y retraso del modelo Pro.

El caso del fallo aritmético

El post de r/LocalLLaMA donde un modelo de 2B de Qwen supera a Gemini 3.5 Flash en suma básica es particularmente revelador. No estamos hablando de un benchmark complejo: es aritmética elemental. Un modelo small-open-weight sintraining específico para matemáticas debería perder contra un frontier model de Google.

El que gane sugiere que Gemini 3.5 Flash tiene un problema de fiabilidad de razonamiento — no de capacidad máxima, sino de consistencia. Esto es más preocupante que un fallo en SWE-bench, porque indica inestabilidad en el razonamiento step-by-step.

¿Por qué decepciona? Tres hipótesis

1. Google priorizó velocidad sobre calidad

Flash se lanzó antes que Pro. La señal temporal sugiere que Google quería tener un modelo 3.5 en el mercado antes de que la presión competitiva de GPT-5.6 y Mythos 5 lo hiciera irrelevante. El resultado: un modelo rápido pero sin pulir.

2. El contexto de 2M tokens no salva modelos que fallan en lo básico

Gemini viene promocionando 2M tokens de contexto desde la versión 3.1. Es impresionante en spec sheet. Pero un desarrollador que vea a un modelo de 2B ganarle en suma básica no va a confiar en que procese correctamente un codebase de 500K líneas. La confianza se pierde en lo simple, no en lo complejo.

3. La barra subió mientras Google no miraba

Cuando Gemini 3.1 Pro superó a Claude Opus 4.7 en GPQA Diamond (94.3% vs 92%), Google parecía haber tomado la delantera en razonamiento. Pero desde entonces:

Anthropic lanzó Mythos 5 (con restricciones de export, pero con benchmarks superiores en coding).
OpenAI lanzó GPT-5.6 Sol con modo “ultra” de sub-agentes paralelos.
DeepSeek V4 Pro demostró que los open-weights pueden competir con frontier models cerrados.

La barra de “bueno” se movió. Y Gemini 3.5 no llegó a la nueva altura.

¿Para qué sirve Gemini 3.5 entonces?

No todo es negativo. El modelo sigue siendo competitivo en nichos específicos:

Contexto largo: 2M tokens sigue siendo insuperable. Si necesitas analizar un monorepo entero o un corpus legal masivo, Gemini es la única opción seria.
Multimodal nativo: la integración de video, audio e imagen sigue siendo la mejor del mercado.
Precio: Flash es agresivamente barato comparado con Sol ($5/$30) o Mythos 5 ($10/$50).
Ecosistema Google: integración con Vertex AI, Workspace y la infraestructura de Google Cloud es difícil de replicar.

¿Qué haría yo?

Si estás decidiendo qué modelo usar para coding o razonamiento técnico hoy:

Caso de uso	Recomendación	Por qué
Coding agentic	GPT-5.6 Sol o Claude Mythos 5	Mejores resultados en Terminal-Bench y SWE-bench
Contexto masivo (>500K)	Gemini 3.5 Pro	Único modelo con 2M tokens reales
Razonamiento básico fiable	Qwen 3.6 27B (self-hosted)	Sorprendentemente sólido para su tamaño
Coste mínimo	Gemini 3.5 Flash	Barato, pero verifica cada output
Multimodal (video/audio)	Gemini 3.5 Pro	Mejor integración multimodal nativa

La recomendación clave: si usas Gemini 3.5 Flash para tareas de razonamiento, añade validación. Un modelo que falla en suma básica no debería tener vía libre en producción sin checks.

Fuentes

r/singularity: Gemini 3.5 Flash is not that great at coding (score 237)
r/LocalLLaMA: 2B Qwen model beats Gemini 3.5 Flash on basic addition (score 85)
r/GeminiAI: Introducing the Gemini 3.5 model series (score 127)
r/singularity: Gemini 3.5 confirmed by Google DeepMind employee (score 1029)
Comparativa interna: Gemini 3.1 Pro análisis
Comparativa interna: GPT-5.6 Sol lanzamiento y controles