Qwen3.7-Max: el modelo de Alibaba diseñado para agentes — contexto 1M, 35 horas autónomo y un robot dog
TL;DR
- Qwen3.7-Max lidera Terminal-Bench 2.0 (69.7) y MCP-Atlas (76.4), por encima de Opus 4.6 y DeepSeek V4 Pro en tareas de agentes.
- Ventana de contexto de 1M tokens, output máximo de 65K tokens, y un caso documentado de 35 horas de ejecución autónoma sin degradación.
- Precio: $2.50/$7.50 por 1M tokens (input/output) — 2-3x más barato que GPT-5.5 y Opus 4.7.
- Funciona como drop-in en Claude Code, OpenClaw y Qwen Code sin tuning adicional.
- El pero: es closed-weights, text-only, y Artificial Analysis reporta que genera 4x más tokens de la media. El coste real puede ser más alto de lo que sugiere el pricing por token.
Contexto
El 20 de mayo de 2026, en el Alibaba Cloud Summit de Hangzhou, el equipo Qwen presentó Qwen3.7-Max. No es otro modelo más de la familia Qwen — es el primero que se posiciona explícitamente como foundation para agentes, no como chat model.
La diferencia no es cosmética. Los modelos frontier (GPT-5.5, Opus 4.7) son excelentes modelos generales que también sirven para agentes. Qwen3.7-Max invierte la relación: está optimizado para ejecución autónoma, tool use y tareas de miles de pasos, con capacidades de chat como consecuencia.
¿Es esto marketing o una diferencia real? Vamos a los datos.
Qué es Qwen3.7-Max (y qué no es)
Qwen3.7-Max es un modelo propietario de tipo Mixture-of-Experts, disponible solo vía API a través de Alibaba Cloud Model Studio (DashScope). No hay pesos descargables. No hay self-hosting.
Lo que tiene:
- Contexto de 1M tokens
- Output máximo de 65,536 tokens
- Endpoints compatibles con OpenAI y Anthropic
preserve_thinkingpara mantener razonamiento entre turns (recomendado para tareas agentic)- Prompt caching nativo ($3.125 creación, $0.25 lectura por 1M)
Lo que no tiene:
- Visión — es text-only. Para multimodal, existe Qwen3.7-Plus (variante separada con vision).
- Self-hosting — closed-weights, API-only.
- Track record — se anunció hace días. GPT-5.5 y Opus 4.7 llevan semanas en producción.
La familia Qwen3.7 tiene dos variantes: Max (text-only, flagship agentic) y Plus (multimodal con vision, equilibrado). Este análisis cubre Max.
Benchmarks: dónde gana y dónde no
Coding y agentes
| Benchmark | Qwen3.7-Max | Opus 4.6 Max | DeepSeek V4 Pro | GPT-5.5 |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 69.7 | 65.4 | 67.9 | — |
| SWE-Pro | 60.6 | ~64 | — | ~59 |
| SWE-Multilingual | 78.3 | — | — | — |
| MCP-Atlas | 76.4 | 75.8 | — | — |
| MCP-Mark | 60.8 | — | — | — |
| GPQA Diamond | 92.4 | 91.3 | 90.1 | — |
Lectura: Qwen3.7-Max gana en Terminal-Bench y MCP-Atlas, que son los benchmarks más relevantes para agentes de coding y tool use. Opus 4.6 sigue dominando SWE-Pro (razonamiento arquitectónico sobre codebases grandes). En GPQA Diamond (ciencia PhD-level), Qwen3.7-Max toma la delantera.
La ausencia de datos de GPT-5.5 en varias columnas no es casualidad — OpenAI publica selectivamente. Pero GPT-5.5 lidera SWE-bench Verified (88.7%) que Qwen3.7-Max no ha publicado.
Razonamiento y STEM
| Benchmark | Qwen3.7-Max | Nota |
|---|---|---|
| HMMT 2026 | 97.1 | Competencia matemática de alto nivel |
| HLE | 41.4 | Humanity’s Last Exam |
| IMOAnswerBench | 90.0 | Problemas de olimpiada |
| Apex Reasoning | 44.5 | Supera a DeepSeek V4 Pro (38.3) |
Los números son sólidos. Pero Artificial Analysis le asigna un Intelligence Index de 56.6, por debajo de GPT-5.5 (60) y empatado con Opus 4.7 (57). Qwen3.7-Max lidera el ranking general de AA porque pondera coste-eficiencia, no solo calidad bruta.
Oficina y productividad
Dos benchmarks que no suelen verse en analysis de modelos:
- SpreadSheetBench-v1: 87.0 — segundo tras Opus 4.6 Max (89.3)
- Kernel Bench L3: 1.98x speedup con 96% win rate en optimización de GPU kernels
El de GPU kernels es el más interesante. No es un benchmark académico — mide si el modelo puede optimizar código real de hardware.
La demo de 35 horas: ¿hype o señal real?
El caso más llamativo de Qwen3.7-Max es una prueba de optimización de kernels en hardware que el modelo nunca había visto durante entrenamiento:
- Hardware: T-Head ZW-M890 PPUs (propietario de Alibaba)
- Duración: ~35 horas de ejecución autónoma continua
- Tool calls: 1,158 evaluaciones de kernels vía 432 iteraciones
- Resultado: 10x geometric mean speedup sobre la referencia Triton
¿Por qué importa? Porque la mayoría de modelos pierden coherencia después de unas horas de ejecución autónoma. Si esto es reproducible (y no un caso cherry-picked), significa que Qwen3.7-Max mantiene estrategia coherente en ventanas de tiempo que otros modelos no pueden sostener.
El matiz: Es un caso en hardware de Alibaba, con un stack que probablemente conocen bien. No es lo mismo que 35 horas en un entorno genérico con herramientas que el modelo no controla. Trataría esto como señal de potencial, no como garantía.
El robot dog: más que un truco de feria
Qwen3.7-Max puede operar un robot perro vía tool-use calls, usando un stack propio:
- Qwen-RobotClaw — agent harness para robótica
- Qwen-RobotNav — modelo de navegación
- Herramientas de vision construidas con Qwen-Plus
El robot planifica, navega, memoriza y toma decisiones en entornos físicos. Es la integración más directa que he visto entre un LLM y un sistema robótico real — no es simulación.
¿Impacto práctico para devs? Cero, a menos que trabajes en robótica. Pero como señal de hacia dónde va el ecosistema, es relevante: el siguiente paso después de coding agents es agents que operan en el mundo físico.
Integración con tu stack
Qwen3.7-Max funciona como backend en los principales frameworks de agentes:
Claude Code
npm install -g @anthropic-ai/claude-code
export ANTHROPIC_MODEL="qwen3.7-max"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=<your_api_key>
claude
OpenClaw
Configura ~/.openclaw/openclaw.json:
{
"models": {
"providers": {
"modelstudio": {
"baseUrl": "https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
"apiKey": "DASHSCOPE_API_KEY",
"api": "openai-completions",
"models": [{
"id": "qwen3.7-max",
"reasoning": true,
"input": ["text"],
"contextWindow": 1000000,
"maxTokens": 65536
}]
}
}
},
"agents": {
"defaults": {
"model": {
"primary": "modelstudio/qwen3.7-max"
}
}
}
}
OpenRouter
También disponible vía OpenRouter a $2.50/$7.50 por 1M tokens, lo que simplifica el acceso si ya usas OpenRouter como gateway.
La compatibilidad con endpoints de Anthropic y OpenAI significa que puedes probar Qwen3.7-Max en tu stack existente cambiando dos variables de entorno. No hay refactor, no hay SDK nuevo.
Pricing: barato en papel, más caro en práctica
| Modelo | Input (1M) | Output (1M) | Contexto |
|---|---|---|---|
| Qwen3.7-Max | $2.50 | $7.50 | 1M |
| GPT-5.5 | $5.00 | $30.00 | 1M |
| Claude Opus 4.7 | $6.25 | $25.00 | 1M |
| DeepSeek V4 Pro | $0.70 | $2.20 | 1M |
En pricing por token, Qwen3.7-Max es 2-3x más barato que los modelos occidentales. Pero hay un factor que Alibaba no menciona en su blog:
Artificial Analysis reporta que Qwen3.7-Max generó 97M tokens de output durante evaluación, frente a una media de 24-26M. Eso es 4x más verbose. Si tu agente hace 50 tool calls por tarea, la verbosidad se traduce directamente en coste.
El prompt caching ($0.25/1M en cache hit) ayuda si reutilizas contexto. Pero para agentes con contextos que cambian en cada paso, el cache hit ratio será bajo.
Coste real estimado: Probablemente 1.5-2x el coste por token que el pricing sugiere. Sigue siendo más barato que GPT-5.5 y Opus 4.7, pero no tan barato como DeepSeek V4 Pro.
Comparativa: ¿cuándo usar Qwen3.7-Max?
| Caso de uso | Mejor opción | Por qué |
|---|---|---|
| Coding agent autónomo | GPT-5.5 o Opus 4.7 | Más track record, SWE-bench más alto |
| Agentes con mucho tool use / MCP | Qwen3.7-Max | Lidera MCP-Atlas y MCP-Mark |
| Tareas de miles de pasos | Qwen3.7-Max | 35h de ejecución documentada |
| Presupuesto ajustado | DeepSeek V4 Pro | Sigue siendo el más barato con calidad alta |
| Codebases enormes (raz. arquitectónico) | Opus 4.7 | Lidera SWE-Pro |
| Chatbot / facing usuario | Opus 4.7 | Elo más alto en LM Arena (~1,492) |
| Procesamiento masivo bulk | Qwen3.7-Max | Mejor ratio coste/ventana de contexto |
Mi lectura: Qwen3.7-Max brilla en el nicho de agentes autónomos con tool use intensivo y tareas de larga duración. No es el mejor modelo general, no es el más barato, y no tiene el track record de los modelos occidentales. Pero para el caso específico de “agente que ejecuta durante horas conectado a MCP servers”, es la opción más competitiva ahora mismo.
Si estás montando un sistema multi-agente con routing por modelo, Qwen3.7-Max merece un slot para workloads agentic largos. Si solo necesitas un modelo para coding diario, Claude Code con Opus 4.7 sigue siendo la apuesta más segura.
Lo que no sabemos
Algunas preguntas sin respuesta a día de hoy:
- Reproducibilidad de las 35 horas. Un caso documentado no es un patrón. Necesitamos datos de equipos independientes ejecutando tareas largas.
- Latencia real en producción. Los ~65 tok/s de throughput son decentes, pero el time-to-first-token puede ser alto para tareas de agent que necesitan respuesta rápida.
- Error rate en tool calls. Artificial Analysis reporta 2.52% de tool call error rate. No es trivial en agentes que hacen cientos de llamadas.
- Disponibilidad. La API de Alibaba Cloud no tiene el uptime track record de OpenAI o Anthropic. Si tu agente funciona 24/7, esto importa.