Qwen3.7-Max: el modelo de Alibaba diseñado para agentes — contexto 1M, 35 horas autónomo y un robot dog

TL;DR

Qwen3.7-Max lidera Terminal-Bench 2.0 (69.7) y MCP-Atlas (76.4), por encima de Opus 4.6 y DeepSeek V4 Pro en tareas de agentes.
Ventana de contexto de 1M tokens, output máximo de 65K tokens, y un caso documentado de 35 horas de ejecución autónoma sin degradación.
Precio: $2.50/$7.50 por 1M tokens (input/output) — 2-3x más barato que GPT-5.5 y Opus 4.7.
Funciona como drop-in en Claude Code, OpenClaw y Qwen Code sin tuning adicional.
El pero: es closed-weights, text-only, y Artificial Analysis reporta que genera 4x más tokens de la media. El coste real puede ser más alto de lo que sugiere el pricing por token.

Contexto

El 20 de mayo de 2026, en el Alibaba Cloud Summit de Hangzhou, el equipo Qwen presentó Qwen3.7-Max. No es otro modelo más de la familia Qwen — es el primero que se posiciona explícitamente como foundation para agentes, no como chat model.

La diferencia no es cosmética. Los modelos frontier (GPT-5.5, Opus 4.7) son excelentes modelos generales que también sirven para agentes. Qwen3.7-Max invierte la relación: está optimizado para ejecución autónoma, tool use y tareas de miles de pasos, con capacidades de chat como consecuencia.

¿Es esto marketing o una diferencia real? Vamos a los datos.

Qué es Qwen3.7-Max (y qué no es)

Qwen3.7-Max es un modelo propietario de tipo Mixture-of-Experts, disponible solo vía API a través de Alibaba Cloud Model Studio (DashScope). No hay pesos descargables. No hay self-hosting.

Lo que tiene:

Contexto de 1M tokens
Output máximo de 65,536 tokens
Endpoints compatibles con OpenAI y Anthropic
preserve_thinking para mantener razonamiento entre turns (recomendado para tareas agentic)
Prompt caching nativo ($3.125 creación, $0.25 lectura por 1M)

Lo que no tiene:

Visión — es text-only. Para multimodal, existe Qwen3.7-Plus (variante separada con vision).
Self-hosting — closed-weights, API-only.
Track record — se anunció hace días. GPT-5.5 y Opus 4.7 llevan semanas en producción.

La familia Qwen3.7 tiene dos variantes: Max (text-only, flagship agentic) y Plus (multimodal con vision, equilibrado). Este análisis cubre Max.

Benchmarks: dónde gana y dónde no

Coding y agentes

Benchmark	Qwen3.7-Max	Opus 4.6 Max	DeepSeek V4 Pro	GPT-5.5
Terminal-Bench 2.0	69.7	65.4	67.9	—
SWE-Pro	60.6	~64	—	~59
SWE-Multilingual	78.3	—	—	—
MCP-Atlas	76.4	75.8	—	—
MCP-Mark	60.8	—	—	—
GPQA Diamond	92.4	91.3	90.1	—

Lectura: Qwen3.7-Max gana en Terminal-Bench y MCP-Atlas, que son los benchmarks más relevantes para agentes de coding y tool use. Opus 4.6 sigue dominando SWE-Pro (razonamiento arquitectónico sobre codebases grandes). En GPQA Diamond (ciencia PhD-level), Qwen3.7-Max toma la delantera.

La ausencia de datos de GPT-5.5 en varias columnas no es casualidad — OpenAI publica selectivamente. Pero GPT-5.5 lidera SWE-bench Verified (88.7%) que Qwen3.7-Max no ha publicado.

Razonamiento y STEM

Benchmark	Qwen3.7-Max	Nota
HMMT 2026	97.1	Competencia matemática de alto nivel
HLE	41.4	Humanity’s Last Exam
IMOAnswerBench	90.0	Problemas de olimpiada
Apex Reasoning	44.5	Supera a DeepSeek V4 Pro (38.3)

Los números son sólidos. Pero Artificial Analysis le asigna un Intelligence Index de 56.6, por debajo de GPT-5.5 (60) y empatado con Opus 4.7 (57). Qwen3.7-Max lidera el ranking general de AA porque pondera coste-eficiencia, no solo calidad bruta.

Oficina y productividad

Dos benchmarks que no suelen verse en analysis de modelos:

SpreadSheetBench-v1: 87.0 — segundo tras Opus 4.6 Max (89.3)
Kernel Bench L3: 1.98x speedup con 96% win rate en optimización de GPU kernels

El de GPU kernels es el más interesante. No es un benchmark académico — mide si el modelo puede optimizar código real de hardware.

La demo de 35 horas: ¿hype o señal real?

El caso más llamativo de Qwen3.7-Max es una prueba de optimización de kernels en hardware que el modelo nunca había visto durante entrenamiento:

Hardware: T-Head ZW-M890 PPUs (propietario de Alibaba)
Duración: ~35 horas de ejecución autónoma continua
Tool calls: 1,158 evaluaciones de kernels vía 432 iteraciones
Resultado: 10x geometric mean speedup sobre la referencia Triton

¿Por qué importa? Porque la mayoría de modelos pierden coherencia después de unas horas de ejecución autónoma. Si esto es reproducible (y no un caso cherry-picked), significa que Qwen3.7-Max mantiene estrategia coherente en ventanas de tiempo que otros modelos no pueden sostener.

El matiz: Es un caso en hardware de Alibaba, con un stack que probablemente conocen bien. No es lo mismo que 35 horas en un entorno genérico con herramientas que el modelo no controla. Trataría esto como señal de potencial, no como garantía.

El robot dog: más que un truco de feria

Qwen3.7-Max puede operar un robot perro vía tool-use calls, usando un stack propio:

Qwen-RobotClaw — agent harness para robótica
Qwen-RobotNav — modelo de navegación
Herramientas de vision construidas con Qwen-Plus

El robot planifica, navega, memoriza y toma decisiones en entornos físicos. Es la integración más directa que he visto entre un LLM y un sistema robótico real — no es simulación.

¿Impacto práctico para devs? Cero, a menos que trabajes en robótica. Pero como señal de hacia dónde va el ecosistema, es relevante: el siguiente paso después de coding agents es agents que operan en el mundo físico.

Integración con tu stack

Qwen3.7-Max funciona como backend en los principales frameworks de agentes:

Claude Code

npm install -g @anthropic-ai/claude-code
export ANTHROPIC_MODEL="qwen3.7-max"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=<your_api_key>
claude

OpenClaw

Configura ~/.openclaw/openclaw.json:

{
  "models": {
    "providers": {
      "modelstudio": {
        "baseUrl": "https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
        "apiKey": "DASHSCOPE_API_KEY",
        "api": "openai-completions",
        "models": [{
          "id": "qwen3.7-max",
          "reasoning": true,
          "input": ["text"],
          "contextWindow": 1000000,
          "maxTokens": 65536
        }]
      }
    }
  },
  "agents": {
    "defaults": {
      "model": {
        "primary": "modelstudio/qwen3.7-max"
      }
    }
  }
}

OpenRouter

También disponible vía OpenRouter a $2.50/$7.50 por 1M tokens, lo que simplifica el acceso si ya usas OpenRouter como gateway.

La compatibilidad con endpoints de Anthropic y OpenAI significa que puedes probar Qwen3.7-Max en tu stack existente cambiando dos variables de entorno. No hay refactor, no hay SDK nuevo.

Pricing: barato en papel, más caro en práctica

Modelo	Input (1M)	Output (1M)	Contexto
Qwen3.7-Max	$2.50	$7.50	1M
GPT-5.5	$5.00	$30.00	1M
Claude Opus 4.7	$6.25	$25.00	1M
DeepSeek V4 Pro	$0.70	$2.20	1M

En pricing por token, Qwen3.7-Max es 2-3x más barato que los modelos occidentales. Pero hay un factor que Alibaba no menciona en su blog:

Artificial Analysis reporta que Qwen3.7-Max generó 97M tokens de output durante evaluación, frente a una media de 24-26M. Eso es 4x más verbose. Si tu agente hace 50 tool calls por tarea, la verbosidad se traduce directamente en coste.

El prompt caching ($0.25/1M en cache hit) ayuda si reutilizas contexto. Pero para agentes con contextos que cambian en cada paso, el cache hit ratio será bajo.

Coste real estimado: Probablemente 1.5-2x el coste por token que el pricing sugiere. Sigue siendo más barato que GPT-5.5 y Opus 4.7, pero no tan barato como DeepSeek V4 Pro.

Comparativa: ¿cuándo usar Qwen3.7-Max?

Caso de uso	Mejor opción	Por qué
Coding agent autónomo	GPT-5.5 o Opus 4.7	Más track record, SWE-bench más alto
Agentes con mucho tool use / MCP	Qwen3.7-Max	Lidera MCP-Atlas y MCP-Mark
Tareas de miles de pasos	Qwen3.7-Max	35h de ejecución documentada
Presupuesto ajustado	DeepSeek V4 Pro	Sigue siendo el más barato con calidad alta
Codebases enormes (raz. arquitectónico)	Opus 4.7	Lidera SWE-Pro
Chatbot / facing usuario	Opus 4.7	Elo más alto en LM Arena (~1,492)
Procesamiento masivo bulk	Qwen3.7-Max	Mejor ratio coste/ventana de contexto

Mi lectura: Qwen3.7-Max brilla en el nicho de agentes autónomos con tool use intensivo y tareas de larga duración. No es el mejor modelo general, no es el más barato, y no tiene el track record de los modelos occidentales. Pero para el caso específico de “agente que ejecuta durante horas conectado a MCP servers”, es la opción más competitiva ahora mismo.

Si estás montando un sistema multi-agente con routing por modelo, Qwen3.7-Max merece un slot para workloads agentic largos. Si solo necesitas un modelo para coding diario, Claude Code con Opus 4.7 sigue siendo la apuesta más segura.

Lo que no sabemos

Algunas preguntas sin respuesta a día de hoy:

Reproducibilidad de las 35 horas. Un caso documentado no es un patrón. Necesitamos datos de equipos independientes ejecutando tareas largas.
Latencia real en producción. Los ~65 tok/s de throughput son decentes, pero el time-to-first-token puede ser alto para tareas de agent que necesitan respuesta rápida.
Error rate en tool calls. Artificial Analysis reporta 2.52% de tool call error rate. No es trivial en agentes que hacen cientos de llamadas.
Disponibilidad. La API de Alibaba Cloud no tiene el uptime track record de OpenAI o Anthropic. Si tu agente funciona 24/7, esto importa.