GPT Diffusion

Gemini 3.5 Pro: por qué la comunidad dice que decepciona (y qué datos lo confirman)

2026-06-28 · Devs #gemini#google#frontier-models#benchmark#comparativa

TL;DR

  • Google lanzó Gemini 3.5 (Flash primero, Pro después) entre finales de mayo y junio de 2026.
  • La recepción en la comunidad de desarrolladores fue notablemente negativa: se acumulan posts criticando su rendimiento en coding, razonamiento básico y comparaciones con frontier models de la competencia.
  • Un modelo de 2B parámetros de Qwen superó a Gemini 3.5 Flash en una pregunta de suma básica. No es un detalle menor: es una bandera roja sobre la fiabilidad del razonamiento.
  • Gemini 3.5 Pro llegó tarde y, cuando lo hizo, los usuarios lo encontraron por debajo de GPT-5.6 Sol y Claude Mythos 5 en las tareas que importan a devs.
  • Google tiene el contexto más largo del mercado (2M tokens), pero el contexto no compensa si el modelo falla en lo fundamental.

Qué lanzó Google exactamente

La serie Gemini 3.5 llegó en dos fases:

ModeloFecha aprox.PosicionamientoEstado
Gemini 3.5 FlashFinales mayo 2026Rápido, barato, codingDisponible en Cursor, API
Gemini 3.5 ProJunio 2026Flagship, razonamientoDisponible con retraso

Flash se integró rápidamente en herramientas como Cursor (disponible desde junio), pero los desarrolladores que lo probaron en coding real reportaron resultados mediocres.

La evidencia del descontento

El sentimiento negativo no es una impresión subjetiva. Se puede medir en la señal de Reddit:

Post (r/subreddit)ScoreComentarios
”Breaking news! Gemini 3.5 pro so ass the US government intervened to keep it out of the US!” (r/singularity)59863
”Gemini 3.5 flash is not that great at coding” (r/singularity)23779
”2B Qwen model beats Gemini 3.5 Flash on a basic addition question” (r/LocalLLaMA)8522
”Well at least openai announced model where gemini 3.5 pro??” (r/Bard)7320
”Waiting for Gemini 3.5 Pro Like” (r/GeminiAI)579

El patrón es claro: tres frentes de crítica simultáneos — coding mediocre, fallos de razonamiento elemental, y retraso del modelo Pro.

El caso del fallo aritmético

El post de r/LocalLLaMA donde un modelo de 2B de Qwen supera a Gemini 3.5 Flash en suma básica es particularmente revelador. No estamos hablando de un benchmark complejo: es aritmética elemental. Un modelo small-open-weight sintraining específico para matemáticas debería perder contra un frontier model de Google.

El que gane sugiere que Gemini 3.5 Flash tiene un problema de fiabilidad de razonamiento — no de capacidad máxima, sino de consistencia. Esto es más preocupante que un fallo en SWE-bench, porque indica inestabilidad en el razonamiento step-by-step.

¿Por qué decepciona? Tres hipótesis

1. Google priorizó velocidad sobre calidad

Flash se lanzó antes que Pro. La señal temporal sugiere que Google quería tener un modelo 3.5 en el mercado antes de que la presión competitiva de GPT-5.6 y Mythos 5 lo hiciera irrelevante. El resultado: un modelo rápido pero sin pulir.

2. El contexto de 2M tokens no salva modelos que fallan en lo básico

Gemini viene promocionando 2M tokens de contexto desde la versión 3.1. Es impresionante en spec sheet. Pero un desarrollador que vea a un modelo de 2B ganarle en suma básica no va a confiar en que procese correctamente un codebase de 500K líneas. La confianza se pierde en lo simple, no en lo complejo.

3. La barra subió mientras Google no miraba

Cuando Gemini 3.1 Pro superó a Claude Opus 4.7 en GPQA Diamond (94.3% vs 92%), Google parecía haber tomado la delantera en razonamiento. Pero desde entonces:

  • Anthropic lanzó Mythos 5 (con restricciones de export, pero con benchmarks superiores en coding).
  • OpenAI lanzó GPT-5.6 Sol con modo “ultra” de sub-agentes paralelos.
  • DeepSeek V4 Pro demostró que los open-weights pueden competir con frontier models cerrados.

La barra de “bueno” se movió. Y Gemini 3.5 no llegó a la nueva altura.

¿Para qué sirve Gemini 3.5 entonces?

No todo es negativo. El modelo sigue siendo competitivo en nichos específicos:

  • Contexto largo: 2M tokens sigue siendo insuperable. Si necesitas analizar un monorepo entero o un corpus legal masivo, Gemini es la única opción seria.
  • Multimodal nativo: la integración de video, audio e imagen sigue siendo la mejor del mercado.
  • Precio: Flash es agresivamente barato comparado con Sol ($5/$30) o Mythos 5 ($10/$50).
  • Ecosistema Google: integración con Vertex AI, Workspace y la infraestructura de Google Cloud es difícil de replicar.

¿Qué haría yo?

Si estás decidiendo qué modelo usar para coding o razonamiento técnico hoy:

Caso de usoRecomendaciónPor qué
Coding agenticGPT-5.6 Sol o Claude Mythos 5Mejores resultados en Terminal-Bench y SWE-bench
Contexto masivo (>500K)Gemini 3.5 ProÚnico modelo con 2M tokens reales
Razonamiento básico fiableQwen 3.6 27B (self-hosted)Sorprendentemente sólido para su tamaño
Coste mínimoGemini 3.5 FlashBarato, pero verifica cada output
Multimodal (video/audio)Gemini 3.5 ProMejor integración multimodal nativa

La recomendación clave: si usas Gemini 3.5 Flash para tareas de razonamiento, añade validación. Un modelo que falla en suma básica no debería tener vía libre en producción sin checks.

Fuentes

Cargando comentarios...