GPT Diffusion

Review: Mistral Large 3 — el modelo europeo que mejoró mucho

2026-05-06 · ⭐ 3/5 · Mistral Large 3

Metodología

Evaluación basada en uso vía La Plateforme API + self-hosting:

  • Benchmarks públicos: GPQA Diamond, MMLU-Pro, SWE-bench
  • Tests propios: coding, agents API, español, tool use
  • Precios: API oficial mayo 2026
  • Entorno: La Plateforme API, NVIDIA NIM

Ficha técnica

  • Proveedor: Mistral AI (Francia)
  • Parámetros: 123B (densos)
  • Contexto: 128K tokens
  • Licencia: Apache 2.0 (open-weight)
  • Modalidades: Texto, function calling, agents
  • Pricing: $0.80/1M input, $2.40/1M output

Lo bueno

Agents API nativo

Mistral Large 3 destaca por su Agents API nativo. No es solo function calling: es un framework completo para construir agents:

  • Handoffs: un agent puede delegar a otro
  • Contexto persistente: conversaciones con estado
  • Tool execution: integración nativa con tools
  • Multi-step: ejecución automática de múltiples pasos

Si construyes agents, la DX de Mistral es competitiva con OpenAI Agents SDK y más accesible que MCP de Anthropic.

Pricing competitivo

A $0.80/$2.40, Mistral Large 3 es:

  • 2.5x más barato que GPT-5 ($2/$10)
  • 3.75x más barato que Opus 4.7 ($3/$15)
  • Ligeramente más caro que Llama 4 Maverick vía API (~$0.20/$0.80)

Para la calidad que ofrece, el precio es justo.

Open-weight con licencia Apache 2.0

Licencia Apache 2.0 es la más permisiva del mercado open-weight. Sin restricciones de uso, sin límites de usuarios, sin approval de Meta. Para empresas, esto es más simple que la licencia Llama.

Coding decente

Mistral Large 3 mejoró significativamente en coding respecto a Large 2:

  • SWE-bench: ~55% (vs ~45% en Large 2)
  • Mejor en Python y TypeScript
  • Function calling más fiable

No es Opus ni GPT-5, pero es suficiente para tasks de coding moderadas.


Lo malo

Español mediocre

El punto débil más notable. Mistral Large 3 en español es notablemente peor que GPT-5, Opus 4.7, e incluso Llama 4 Maverick:

  • Construcciones poco naturales
  • Calcos del francés (no del inglés, curiosamente)
  • Terminología técnica a veces incorrecta
  • Tono inconstante (mezcla formal e informal)

Para un blog en español, esto es un problema. Para uso interno (logs, análisis), es aceptable.

Razonamiento por debajo de la competencia

BenchmarkMistral Large 3GPT-5Opus 4.7Llama 4 Maverick
GPQA Diamond~45%~88%92%~50%

45% en GPQA Diamond lo pone por debajo incluso de Llama 4 Maverick. No es un modelo de razonamiento. Para tasks de análisis profundo, no es la elección correcta.

Contexto sin ventaja

128K tokens es el estándar. No ofrece ventaja sobre GPT-5 (128K), y queda muy por debajo de Gemini 2.5 Pro (1M) y Claude Opus 4.7 (200K).

Ecosistema inmaduro

La Plateforme tiene menos integraciones que OpenAI o Anthropic:

  • No hay equivalente a GPTs o Claude Desktop
  • Menos SDKs oficiales (Python sí, Node.js básico)
  • Documentación menos completa
  • Comunidad más pequeña

Casos de uso

✅ Ideal para

  • Agents con tools (su caso de uso más fuerte)
  • Coding moderado con Agents API
  • Workflows en Europa (data residency, GDPR-first)
  • Proyectos Apache 2.0 donde la licencia importa

⚠️ Aceptable

  • Coding no crítico
  • Clasificación y extracción (pero Llama 4 Maverick es más barato)
  • RAG básico

❌ No recomendado

  • Contenido en español (usa GPT-5, Opus, o Gemini)
  • Razonamiento profundo (usa cualquier frontier)
  • Contexto largo (usa Gemini o Opus)
  • Producción sin fallback (menos battle-tested que OpenAI/Anthropic)

Comparación con alternativas

AspectoMistral Large 3GPT-5DeepSeek V4 ProLlama 4 Maverick
Precio input/1M$0.80$2.00$0.55~$0.20
Razonamiento~45%~88%52%~50%
Coding~55%~76%~65%~58%
Agents API⭐ MejorBuenoBásicoBásico
Español⚠️ DébilExcelenteBuenoBueno
LicenciaApache 2.0 ⭐PropietariaPersonalizadaLlama License

Mistral Large 3 tiene un nicho claro: agents con la DX más pulida y licencia open. Fuera de ese nicho, otros modelos lo superan.


Veredicto

Rating: 3/5

Mistral Large 3 es un modelo competent pero sin un gancho claro salvo su Agents API. Su español es mediocre, su razonamiento queda por debajo de la competencia, y su pricing no es el más barato.

Recomendación: Considera Mistral Large 3 si construyes agents y valoras la licencia Apache 2.0. Para todo lo demás, GPT-5 (calidad), DeepSeek V4 Pro (precio-razonamiento), o Llama 4 Maverick (precio puro) son mejores elecciones.


Lectura relacionada


Precios y benchmarks actualizados a mayo 2026.

Veredicto: Buen modelo para agents y coding, pero no destaca lo suficiente en ningún área para ser primera elección. Mejor como especialista en Agents API.
#mistral#review#open-weights#european-ai#agents