GPT Diffusion

Review: Gemini 3.5 Flash — velocidad frontier, precio Flash, matices reales

2026-05-25 · ⭐ 4/5 · Gemini 3.5 Flash

TL;DR

  • Fortaleza principal: 277 tokens/segundo y benchmarks agentic que superan a la generación anterior de Pro
  • Pricing: $1.50/$9.00 por 1M tokens (40% más barato que 3.1 Pro), pero 3x más caro que Flash 3.0
  • El problema: el coste por tarea completada es 5.5x superior a Flash 3.0 por la verbosidad y turn count alto
  • Veredicto: el mejor modelo Flash de Google hasta la fecha, pero no es el “Pro barato” que el marketing sugiere

Contexto

Gemini 3.5 Flash llegó el 19 de mayo en Google I/O 2026 con una narrativa clara: “frontier intelligence at Flash latency”. La idea es que ya no tienes que elegir entre barato y bueno.

Y en parte es cierto. Por primera vez, un modelo Flash supera al Pro anterior (3.1 Pro) en benchmarks de coding y agentes. Los números son reales. Pero como siempre, el diablo está en los matices: el coste real por tarea completada, la verbosidad extrema, y la ausencia de capabilities como computer use que sí tienen GPT-5.5 y Opus 4.7.

Esta review evalúa si el hype está justificado y, sobre todo, cuándo compensa usar 3.5 Flash frente a las alternativas.


Metodología

Evaluación basada en datos de uso real y benchmarks públicos:

  • Benchmarks públicos: Terminal-Bench 2.1, MCP Atlas, GDPval-AA, Artificial Analysis Coding Index, CharXiv Reasoning
  • Datos de coste real: Artificial Analysis benchmark suite (coste total por suite completa, turn count promedio)
  • API testing: Google AI Studio con modelo gemini-3.5-flash, testing de thinking_level (minimal/low/medium/high)
  • Comparativas: Gemini 3.1 Pro, Gemini 3 Flash, GPT-5.5, Claude Opus 4.7
  • Precios: API oficial Google, mayo 2026
  • Limitaciones: no he ejecutado suites de benchmarks propias; los datos de coste real provienen de Artificial Analysis. Los resultados pueden variar según tipo de tarea y configuración de thinking_level

Ficha técnica

  • Proveedor: Google DeepMind
  • Modelo API: gemini-3.5-flash
  • Contexto: 1,048,576 tokens input / 65,536 tokens output
  • Modalidades: texto, imagen, audio, video, PDF (input) / texto (output)
  • Velocidad: 277 tokens/segundo (el más rápido del mercado)
  • Knowledge cutoff: enero 2026
  • Pricing:
    • Input: $1.50/1M tokens
    • Output: $9.00/1M tokens
    • Cached input: $0.15/1M tokens (90% descuento)
  • Thinking: dinámico por defecto, configurable vía thinking_level
  • Disponibilidad: Google AI Studio, Vertex AI

Benchmarks: dónde gana y dónde pierde

Dónde 3.5 Flash supera a 3.1 Pro

Benchmark3.5 Flash3.1 ProDiferencia
Terminal-Bench 2.176.2%70.3%+5.9
MCP Atlas (tool use)83.6%78.2%+5.4
GDPval-AA (Elo)16561314+342
Finance Agent v257.9%43.0%+14.9
Toolathlon+7.1

Los números son consistentes: 3.5 Flash está optimizado para tareas multi-paso con tools. Si tu caso de uso implica agentes que llaman APIs, ejecutan código y coordinan sub-tareas, Flash es mejor que el Pro anterior.

Dónde 3.1 Pro sigue ganando

Benchmark3.5 Flash3.1 ProDiferencia
ARC-AGI-2-5.0 (Flash por debajo)
Humanity’s Last Exam-4.2 (Flash por debajo)
MRCR v2 (128K contexto)-7.6 (Flash por debajo)

Razonamiento abstracto, conocimiento denso, retrieval de contexto largo: 3.1 Pro sigue siendo superior. Flash no es un reemplazo universal.

Dato incómodo: Artificial Analysis Coding Index

Aquí hay un número que Google no destaca en su blog: 3.5 Flash puntúa 45.0 en el Artificial Analysis Coding Index, frente a 56.5 de 3.1 Pro. Eso es una caída del 20%.

La discrepancia se explica porque Google compara con Terminal-Bench (tareas de shell/agentes) y Artificial Analysis mide coding más tradicional (SWE-bench style). Pero es un dato que merece la pena conocer: si necesitas coding profundo, Flash no es la respuesta.


El coste real: pricing vs. coste por tarea

El pricing de 3.5 Flash es atractivo en papel: 40% más barato que 3.1 Pro, un tercio del coste de GPT-5.5.

ModeloInput/1MOutput/1M
Gemini 3.5 Flash$1.50$9.00
Gemini 3.1 Pro$2.00$12.00
GPT-5.5$5.00$30.00
Claude Opus 4.7$5.00$25.00

Pero el coste por token no es el coste por tarea. Gemini 3.5 Flash es verbose: genera mucha más salida de la necesaria. Y en tareas agentic, necesita una media de 49 turnos por tarea (uno de los más altos medidos).

El resultado: ejecutar la suite completa de Artificial Analysis costó:

ModeloCoste total suite
Gemini 3 Flash$282
Gemini 3.1 Pro$870
Gemini 3.5 Flash$1,552
GPT-5.5 (Medium)< $1,552

3.5 Flash es 5.5x más caro que Flash 3.0 en coste por tarea completada. No es un detalle menor: si migras de Flash 3.0 a 3.5 Flash esperando ahorro, tu factura se va a multiplicar.

La lección: el coste por token es engañoso. Mide el coste por tarea completada antes de migrar.


Thinking levels: la API nueva que merece la pena entender

3.5 Flash introduce thinking_level, que reemplaza el antiguo thinking_budget (entero). Los niveles son:

NivelComportamientoTTFT aprox.
minimalSin razonamiento visible<2s
lowRazonamiento breve~4s
mediumBalance (default)~8s
highRazonamiento profundo~17.75s

Atención: el default es medium. En la Preview era high. Si migras sin tocar la config, el modelo razona menos. Es un cambio silencioso que puede degradar calidad sin que te des cuenta.

Ejemplo de uso con el SDK de Python:

from google import genai

client = genai.Client()

response = client.models.generate_content(
    model='gemini-3.5-flash',
    contents='Analiza este codebase en busca de vulnerabilidades de seguridad',
    config={'thinking_config': {'thinking_level': 'high'}}
)
print(response.text)

Mi recomendación: usa high para tareas de razonamiento complejo y medium o low para tareas rutinarias de clasificación o extracción. minimal rara vez merece la pena — casi siempre mejor usar un modelo más pequeño directamente.


Fortalezas

Velocidad. 277 tokens/segundo es el más rápido del mercado. Para aplicaciones en tiempo real — chatbots, asistentes conversacionales, interfaces reactivas — la diferencia es perceptible y significa mejor UX sin necesidad de streaming complejo.

Agentic workflows. MCP Atlas 83.6%, Terminal-Bench 76.2%, GDPval-AA 1656 Elo. Estos no son números de marketing: son benchmarks estándar del sector donde 3.5 Flash lidera. Si estás construyendo agentes con tool calling, este modelo está optimizado para eso.

Contexto de 1M tokens. Heredado de la línea Gemini. Procesar un codebase entero o un corpus de documentos sin chunking es una capacidad real que pocos modelos ofrecen.

Cached input a $0.15/1M. El 90% de descuento en cached input es agresivo. Si tus prompts tienen un prefijo estable (system prompt + contexto), el coste real puede ser significativamente menor.

Free tier funcional. Google AI Studio permite testing real sin tarjeta de crédito. No es producción, pero suficiente para evaluar antes de comprometerse.


Debilidades

Verbosidad extrema. En las suites de benchmarks, 3.5 Flash generó 73M tokens de output frente a una media de 36M. Eso es el doble de output. Más tokens = más coste + más latencia percibida. Y no siempre es output útil: a menudo es relleno.

Coding tradicional por debajo de 3.1 Pro. Artificial Analysis Coding Index: 45.0 vs 56.5. Si tu caso de uso principal es generación de código complejo, refactoring o debugging profundo, Flash no es la mejor elección.

Sin computer use. GPT-5.5 tiene OSWorld 75%+. Flash no puede interactuar directamente con sistemas operativos. Para agentes que necesitan navegar interfaces, es una limitación real.

Rate limits. Heredado de la familia Gemini: free tier a 5 RPM, pay-as-you-go a 10 RPM. Para un modelo que promete agentic workflows (donde necesitas muchas llamadas secuenciales), los rate limits son un cuello de botella.

Pro retrasado. Gemini 3.5 Pro no llega hasta junio 2026. Si necesitas el modelo más capaz de Google ahora mismo, la elección es entre Flash o 3.1 Pro.


Casos de uso recomendados

Usaría 3.5 Flash para

  • Agentes con tool calling — MCP, function calling, orquestación de APIs. Es su punto fuerte.
  • Aplicaciones en tiempo real — chatbots, asistentes conversacionales donde la latencia importa.
  • Procesamiento de documentos largos — 1M tokens de contexto + velocidad = buen combo para RAG sobre corpus grandes.
  • Prototipado rápido — free tier + velocidad + calidad decente = iteración rápida.

Pensaría dos veces antes de usarlo para

  • Coding complejo — Opus 4.7 (SWE-bench 64.3%) o 3.1 Pro (Coding Index 56.5) son mejores.
  • Agentes de alto turn count — el coste por tarea puede explotar. Mide antes de migrar.
  • Razonamiento abstracto — ARC-AGI, Humanity’s Last Exam: 3.1 Pro gana.
  • Producción sin fallback — rate limits y API inestable son riesgos conocidos de la familia Gemini.

Comparación con alternativas

Aspecto3.5 FlashGPT-5.5Claude Opus 4.7Gemini 3.1 Pro
Velocidad277 t/s ⭐~120 t/s~80 t/s~100 t/s
Agentic (MCP Atlas)83.6% ⭐75.3%78.9%78.2%
Coding (SWE/Index)45.0 (AA)~5664.3% ⭐56.5
Contexto1M ⭐128K200K1M
Input/1M tokens$1.50 ⭐$5.00$5.00$2.00
Output/1M tokens$9.00$30.00$25.00$12.00 ⭐
Computer useNoSí ⭐NoNo
Estabilidad API⚠️ Inestable✅ Estable✅ Estable⚠️ Inestable
Coste por tarea real⚠️ AltoAltoAltoMedio

La tabla cuenta la historia: 3.5 Flash gana en velocidad y agentic, pierde en coding profundo y estabilidad de API. El coste por token es bajo, pero el coste por tarea es engañoso.


Veredicto

Rating: 4/5

Gemini 3.5 Flash es el mejor modelo Flash que ha hecho Google. No es close. Los benchmarks agentic son legítimos, la velocidad es bestial, y el pricing por token es competitivo.

Pero “Flash que supera a Pro” es una verdad a medias. Superar a 3.1 Pro en Terminal-Bench no significa que sea mejor modelo en general. Pierde en razonamiento abstracto, pierde en coding tradicional, y el coste real por tarea completada puede ser 5x lo que esperas si vienes de Flash 3.0.

Usar si necesitas agentes rápidos con tool calling y tu workflow tiene turn count moderado.

Evitar si tu caso de uso principal es coding complejo, razonamiento profundo, o tienes un presupuesto ajustado y vienes de modelos Flash anteriores.

La configuración ideal: un router que envíe tareas agentic y de velocidad a 3.5 Flash, coding a Opus 4.7, y razonamiento a 3.1 Pro o GPT-5.5. No hay un modelo que gane en todo. 3.5 Flash gana en velocidad y agentes, y eso es suficiente para ser relevante.


Lectura relacionada


Precios y benchmarks actualizados a mayo 2026. Datos de coste real de Artificial Analysis.

Veredicto: El mejor modelo Flash de Google, pero no el Pro barato que el marketing sugiere. Ganar en agentes y velocidad no significa ganar en todo.
#gemini#google#frontier-models#review#agentes#benchmark