GPT Diffusion

Claude Sonnet 4.6 a $3/MTok con 1M de contexto: ¿El mejor value del mercado?

2026-05-26 · Devs #frontier-models#pricing#claude#modelos#costes#benchmark

Claude Sonnet 4.6 a $3/MTok con 1M de contexto: ¿El mejor value del mercado?

TL;DR

  • Claude Sonnet 4.6 cuesta $3 input / $15 output por millón de tokens — 5x más barato que Opus 4.6 y ~2x más barato que GPT-5.5.
  • En SWE-bench Verified saca 79.6%, a solo 1.2 puntos de Opus 4.6 (80.8%) y por debajo de GPT-5.5 (88.7%).
  • Desde el 13 de marzo de 2026, Anthropic eliminó el recargo por contexto largo: 1M de tokens a precio estándar, sin cliff de pricing.
  • GPT-5.5 gana en tareas agentivas de terminal (82.7% vs ~59% en Terminal-Bench 2.0) y razonamiento puro (ARC-AGI-2: 85% vs 58.3%).
  • Mi lectura: para el 80% de tareas de código diario, Sonnet 4.6 es suficiente. Para agents pesados y refactors grandes, GPT-5.5 o Opus 4.7 compensan.

Contexto: por qué esto importa ahora

La pregunta “¿qué modelo uso?” se ha vuelto más difícil y más importante a la vez. Hace un año, la respuesta era sencilla: usabas GPT-4 para todo o te ibas a un modelo barato para tareas mecánicas. Hoy hay seis modelos frontier dentro de 0.8 puntos en SWE-bench Verified, y la diferencia real está en el coste por tarea, no en el número del benchmark.

Anthropic ha hecho tres movimientos que cambian la ecuación:

  1. Sonnet 4.6 (febrero 2026): misma calidad que la generación anterior de Opus, a 1/5 del precio.
  2. 1M de contexto sin recargo (marzo 2026): eliminaron el surcharge de 2x que aplicaban a peticiones >200K tokens.
  3. Flat pricing: el único proveedor major que no te penaliza por usar toda la ventana de contexto.

Esto no es marketing. Es un cambio estructural en cómo se calcula el coste de un pipeline de IA.


Los datos: Sonnet 4.6 vs Opus 4.6/4.7 vs GPT-5.5

Pricing comparado

ModeloInput $/MTokOutput $/MTokContextoRecargo >200K?
Claude Sonnet 4.6$3.00$15.00200K (1M flat)No
Claude Opus 4.6$5.00$25.00200K (1M flat)No
Claude Opus 4.7$5.00$25.00200K (1M flat)No
GPT-5.5$5.00$30.001.05MSí (2x input >272K)
Gemini 3.1 Pro$2.00$12.001MSí (2x >200K)
DeepSeek V3.2$0.28$1.10163KNo aplica

Cache read de Sonnet 4.6: $0.30/MTok. Eso significa que si cacheas un knowledge base de 1M tokens y haces 10 consultas con 90% hit rate, cada consulta adicional te cuesta ~$0.57 en vez de $3.00.

Benchmarks: coding

BenchmarkSonnet 4.6Opus 4.6GPT-5.5Notas
SWE-bench Verified79.6%80.8%88.7%GitHub issues reales
SWE-bench Pro (SEAL)~45%57.7%Tareas harder, multi-file
Terminal-Bench 2.0~59%65.4%82.7%Autonomous CLI

La parte incómoda: SWE-bench Verified tiene contaminación confirmada en los datos de entrenamiento. OpenAI dejó de reportarlo. Los números son útiles para comparar relativa, pero no como verdad absoluta.

Benchmarks: razonamiento

BenchmarkSonnet 4.6GPT-5.5Notas
ARC-AGI-258.3%85.0%Resolución de problemas novedosos
GPQA Diamond89.9%93.6%Física/ciencia postgrad
Humanity’s Last Exam49.0%52.2%Expert-level reasoning
MMMU-Pro75.6%83.2%Multimodal comprensión
Finance Agent63.3%60.0%Análisis financiero

GPT-5.5 barre en razonamiento puro. La brecha en ARC-AGI-2 (85% vs 58.3%) es la más grande de la tabla. Pero ojo: Sonnet 4.6 gana en Finance Agent. Ningún modelo es mejor en todo.

Contexto: la ventaja que pocos explican

Aquí está el trade-off real que nadie pone en los tweets:

Sonnet 4.6 tiene 200K de contexto por defecto, 1M con beta header. Pero desde marzo 2026, esa ventana de 1M tiene precio flat. Ni cliff, ni surcharge, ni “a partir de X tokens te cobramos el doble”.

GPT-5.5 tiene 1.05M de contexto, pero si pasas de 272K tokens de input, toda la petición se cobra a 2x en input y 1.5x en output. No solo el exceso. Toda.

Gemini 3.1 Pro: mismo problema. Cliff a 200K, 2x el input.

Ejemplo real: un escaneo de codebase completo (700K input + 5K output):

  • Sonnet 4.6: $2.18
  • Sonnet 4.6 (con el surcharge viejo): $4.31
  • GPT-5.5: $3.61 (con cliff activado)
  • Gemini 3.1 Pro: $2.89 (con cliff activado)

Sonnet 4.6 es un 40% más barato que GPT-5.5 en escenarios de contexto largo. Eso no es marginal.


Qué tareas merecen cada modelo

Sonnet 4.6: el default para el 80% del trabajo

  • Code review y PR summaries.
  • Refactors de alcance medio (< 10 archivos).
  • Generación de tests, documentación, boilerplate.
  • Análisis de logs, triage de issues.
  • Chat de coding interactivo en IDE.
  • RAG sobre knowledge bases grandes (con cache).

Aquí es donde el value es claro: pagas $3/MTok por calidad que hace un año hubiera sido Opus-class. Los desarrolladores en las pruebas de Anthropic prefirieron Sonnet 4.6 sobre Opus 4.5 un 59% de las veces. A 1/5 del precio.

Opus 4.6/4.7: cuando 1.2 puntos importan

  • Refactors arquitecturales grandes (> 10 archivos).
  • Tareas donde el coste del error es alto (legal, security review).
  • Long-context reasoning que necesita la mejor retención (76% MRCR v2 a 1M).
  • Workflows donde ya usas Claude Code y quieres el modelo top.

La diferencia de 1.2 puntos en SWE-bench Verified parece pequeña. Pero en SWE-bench Pro (tareas más difíciles), Opus 4.6/4.5 lidera con 45.9% vs 42.7% de Sonnet 4. A medida que la tarea se pone más difícil, la brecha crece.

GPT-5.5: agents y razonamiento pesado

  • Agents autónomos de terminal (Terminal-Bench: 82.7% vs ~59% de Sonnet).
  • Refactors multi-repo o migraciones arquitecturales complejas.
  • Tareas de razonamiento científico/matemático (ARC-AGI-2: 85%).
  • Computer use nativo (OSWorld: 78.7%).

GPT-5.5 es significativamente mejor en tareas agentivas. Si estás construyendo agents que operan en terminal, CI/CD, o infra, la diferencia es real y documentada. Pero pagas $5/$30 — casi el doble que Sonnet en output.

Gemini 3.1 Pro: el más barato (con matiz)

  • Carga de trabajo de alto volumen donde el coste domina la decisión.
  • Tareas multimodales pesadas (video, imágenes grandes).
  • Workflows donde no pasas de 200K tokens (para evitar el cliff).

A $2/$12 es el más barato de los frontier. Pero ese cliff a 200K te puede pillar.


El coste por tarea real

Hablemos de euros. No de tokens por millón, sino de “¿cuánto me cuesta hacer X?”

TareaInput aprox.Output aprox.Coste Sonnet 4.6Coste GPT-5.5
Code review de PR (2 archivos)~8K~2K$0.05$0.10
Refactor de módulo (5 archivos)~40K~8K$0.24$0.44
Análisis de codebase completo~500K~15K$1.73$3.25*
Agent autónomo CI/CD~30K~20K$0.39$0.75
Review legal (3 contratos)~200K~5K$0.68$1.15

* GPT-5.5 asumiendo cliff activado (>272K input).

Para code review diario, la diferencia es centimos. Pero si procesas 100 PRs al día, Sonnet 4.6 te ahorra $5/día vs GPT-5.5. A final de mes: ~$150. Si además cacheas los prompts de sistema, el ahorro sube.


Lo que los benchmarks no te cuentan

Extended thinking: un arma de doble filo

Sonnet 4.6 soporta extended thinking (tokens de razonamiento internos). Esto mejora resultados en tareas complejas, pero los thinking tokens se facturan como output ($15/MTok). Un “budget_tokens” generoso puede doblar el coste de una petición sin que te des cuenta.

Mi recomendación: usa extended thinking solo en tareas donde el error tiene coste. Para code review rutinario, apágalo.

El tema de la velocidad

GPT-5.5 mantiene latencia por-token equivalente a GPT-5.4. Sonnet 4.6 es más rápido que Opus en output. En uso interactivo (IDE, chat), Sonnet 4.6 se siente más responsivo que GPT-5.5 para respuestas cortas. Para respuestas largas de código, la diferencia se reduce.

Context rot: no todo es el tamaño

NVIDIA RULER demuestra que el contexto efectivo de un LLM es ~50-65% del advertised. Claude “decae más lento” que competidores según benchmarks de Anthropic, pero eso es un dato del propio Anthropic. Tómalo con escepticismo informado.

La estrategia real no es llenar el contexto, sino llenarlo de señal: usa retrieval para traer solo lo relevante, cachea lo estable, y delega a subagents las tareas que no necesitan el contexto completo.


Veredicto

Sonnet 4.6 es el mejor value del mercado para el trabajo de código diario. No es el mejor modelo en ningún benchmark individual, pero la combinación de precio, calidad y contexto plano es la más equilibrada.

¿Cuándo no es suficiente?

  • Si construyes agents autónomos de terminal → GPT-5.5.
  • Si necesitas la máxima calidad en tareas difíciles de código → Opus 4.7.
  • Si tu presupuesto es ajustado y no pasas de 200K → Gemini 3.1 Pro.

Pero para el 80% del trabajo que hace un dev — review, refactor, tests, documentación, debugging — Sonnet 4.6 a $3/MTok es difícil de superar.

La parte que más me gusta del movimiento de Anthropic: eliminar el surcharge de contexto largo. Eso convierte el 1M de contexto de un truco de marketing en algo que puedes usar en producción sin mirar el invoice con terror. Ojalá Google y OpenAI sigan el mismo camino.


Fuentes


Datos verificados a 25 de mayo de 2026. El mercado de LLMs se mueve rápido: comprueba precios actuales antes de tomar decisiones de presupuesto.

Cargando comentarios...