Mistral Medium 3.5: ¿El nuevo estándar de los modelos open-weight?

TL;DR

Rendimiento: Un 77.6% en SWE-bench lo coloca en la élite de modelos de código, rozando la capacidad de modelos cerrados.
Acceso: Licencia MIT (open weights), lo que permite self-hosting real sin las restricciones de algunas “open” licenses.
Coste: API competitiva ($1.5/M input), pero el verdadero valor está en la capacidad de ejecutarlo en 4 GPUs.
Veredicto: Es la opción más racional hoy para quienes necesitan privacidad total y rendimiento de nivel frontera en tareas de ingeniería.

Contexto

Ayer Mistral soltó el Medium 3.5. En un mercado saturado de “mini” modelos y modelos cerrados que cada semana cambian sus reglas de API, un modelo de 128B parámetros con pesos abiertos y licencia MIT es una señal clara: Mistral quiere ser la infraestructura sobre la que construyamos, no solo el proveedor de la API.

Para un desarrollador, la pregunta no es si el modelo es “increíble”, sino si el coste de despliegue y la latencia compensan la ganancia de rendimiento frente a DeepSeek V4 o GPT-5.5.

El salto técnico: 128B y SWE-Bench

Lo más relevante no es el tamaño, sino la eficiencia en código. Un 77.6% en SWE-bench no es un número despreciable; significa que el modelo puede resolver problemas de software reales en repositorios complejos con una tasa de éxito que hace que el self-hosting sea viable para agentes de codificación.

Especificaciones clave:

Arquitectura: 128B dense.
Contexto: 256k tokens (suficiente para la mayoría de bases de código medianas).
Licencia: MIT (estándar de oro para open source).

Análisis de despliegue y costes

Aquí es donde el Ingeniero Escéptico mira los números.

Opción A: API (Le Chat / API Mistral)

El precio es agresivo:

Input: $1.50 / millón de tokens.
Output: $7.50 / millón de tokens. Es significativamente más barato que los modelos frontier de OpenAI o Anthropic, manteniendo una calidad comparable en tareas de razonamiento técnico.

Opción B: Self-hosting

Mistral indica que el modelo es “self-hostable on 4 GPUs”. Dependiendo de la cuantización (4-bit o 8-bit), estamos hablando de un setup de A100 o H100. Para una empresa que procesa millones de tokens al día y maneja código sensible, el ROI de montar el propio cluster es ahora mucho más corto gracias a la licencia MIT.

Lo nuevo: Vibe Remote Agents y Work Mode

Mistral ha integrado “Vibe Remote Agents” y un “Work Mode” en Le Chat. Básicamente, están intentando cerrar la brecha entre el modelo y la herramienta. El Work Mode optimiza la ventana de contexto para tareas largas de desarrollo, reduciendo el ruido y enfocando la atención del modelo en los archivos modificados.

Mistral Medium 3.5 vs DeepSeek V4 Pro

Si tienes que elegir hoy:

DeepSeek V4 Pro: Sigue siendo el rey en eficiencia de coste/rendimiento vía API, especialmente con sus descuentos actuales.
Mistral Medium 3.5: Gana por goleada en soberanía de datos. Si el código no puede salir de tus servidores, Mistral es la única opción real con este nivel de performance.

Metodología

Este análisis se basa en la documentación técnica de lanzamiento de Mistral, los resultados reportados de SWE-bench y la comparativa de pricing oficial frente a los tiers actuales de DeepSeek y OpenAI.

Conclusión

El Mistral Medium 3.5 no es una revolución, es una consolidación. No intenta inventar una arquitectura nueva, sino ejecutar la fórmula de “modelo denso, alta capacidad, licencia abierta” a la perfección.

Si estás montando un pipeline de agentes de IA para código y la privacidad es un requerimiento no negociable, deja de mirar los modelos cerrados. Monta el Medium 3.5 en tu propia infra y tienes un motor de nivel frontier bajo tu control total.

Fuentes: [Mistral AI Official Blog], [SWE-Bench Leaderboard], [Mistral API Pricing]