Review: Mistral Large 3 — el modelo europeo que mejoró mucho
Metodología
Evaluación basada en uso vía La Plateforme API + self-hosting:
- Benchmarks públicos: GPQA Diamond, MMLU-Pro, SWE-bench
- Tests propios: coding, agents API, español, tool use
- Precios: API oficial mayo 2026
- Entorno: La Plateforme API, NVIDIA NIM
Ficha técnica
- Proveedor: Mistral AI (Francia)
- Parámetros: 123B (densos)
- Contexto: 128K tokens
- Licencia: Apache 2.0 (open-weight)
- Modalidades: Texto, function calling, agents
- Pricing: $0.80/1M input, $2.40/1M output
Lo bueno
Agents API nativo
Mistral Large 3 destaca por su Agents API nativo. No es solo function calling: es un framework completo para construir agents:
- Handoffs: un agent puede delegar a otro
- Contexto persistente: conversaciones con estado
- Tool execution: integración nativa con tools
- Multi-step: ejecución automática de múltiples pasos
Si construyes agents, la DX de Mistral es competitiva con OpenAI Agents SDK y más accesible que MCP de Anthropic.
Pricing competitivo
A $0.80/$2.40, Mistral Large 3 es:
- 2.5x más barato que GPT-5 ($2/$10)
- 3.75x más barato que Opus 4.7 ($3/$15)
- Ligeramente más caro que Llama 4 Maverick vía API (~$0.20/$0.80)
Para la calidad que ofrece, el precio es justo.
Open-weight con licencia Apache 2.0
Licencia Apache 2.0 es la más permisiva del mercado open-weight. Sin restricciones de uso, sin límites de usuarios, sin approval de Meta. Para empresas, esto es más simple que la licencia Llama.
Coding decente
Mistral Large 3 mejoró significativamente en coding respecto a Large 2:
- SWE-bench: ~55% (vs ~45% en Large 2)
- Mejor en Python y TypeScript
- Function calling más fiable
No es Opus ni GPT-5, pero es suficiente para tasks de coding moderadas.
Lo malo
Español mediocre
El punto débil más notable. Mistral Large 3 en español es notablemente peor que GPT-5, Opus 4.7, e incluso Llama 4 Maverick:
- Construcciones poco naturales
- Calcos del francés (no del inglés, curiosamente)
- Terminología técnica a veces incorrecta
- Tono inconstante (mezcla formal e informal)
Para un blog en español, esto es un problema. Para uso interno (logs, análisis), es aceptable.
Razonamiento por debajo de la competencia
| Benchmark | Mistral Large 3 | GPT-5 | Opus 4.7 | Llama 4 Maverick |
|---|---|---|---|---|
| GPQA Diamond | ~45% | ~88% | 92% | ~50% |
45% en GPQA Diamond lo pone por debajo incluso de Llama 4 Maverick. No es un modelo de razonamiento. Para tasks de análisis profundo, no es la elección correcta.
Contexto sin ventaja
128K tokens es el estándar. No ofrece ventaja sobre GPT-5 (128K), y queda muy por debajo de Gemini 2.5 Pro (1M) y Claude Opus 4.7 (200K).
Ecosistema inmaduro
La Plateforme tiene menos integraciones que OpenAI o Anthropic:
- No hay equivalente a GPTs o Claude Desktop
- Menos SDKs oficiales (Python sí, Node.js básico)
- Documentación menos completa
- Comunidad más pequeña
Casos de uso
✅ Ideal para
- Agents con tools (su caso de uso más fuerte)
- Coding moderado con Agents API
- Workflows en Europa (data residency, GDPR-first)
- Proyectos Apache 2.0 donde la licencia importa
⚠️ Aceptable
- Coding no crítico
- Clasificación y extracción (pero Llama 4 Maverick es más barato)
- RAG básico
❌ No recomendado
- Contenido en español (usa GPT-5, Opus, o Gemini)
- Razonamiento profundo (usa cualquier frontier)
- Contexto largo (usa Gemini o Opus)
- Producción sin fallback (menos battle-tested que OpenAI/Anthropic)
Comparación con alternativas
| Aspecto | Mistral Large 3 | GPT-5 | DeepSeek V4 Pro | Llama 4 Maverick |
|---|---|---|---|---|
| Precio input/1M | $0.80 | $2.00 | $0.55 | ~$0.20 |
| Razonamiento | ~45% | ~88% | 52% | ~50% |
| Coding | ~55% | ~76% | ~65% | ~58% |
| Agents API | ⭐ Mejor | Bueno | Básico | Básico |
| Español | ⚠️ Débil | Excelente | Bueno | Bueno |
| Licencia | Apache 2.0 ⭐ | Propietaria | Personalizada | Llama License |
Mistral Large 3 tiene un nicho claro: agents con la DX más pulida y licencia open. Fuera de ese nicho, otros modelos lo superan.
Veredicto
Rating: 3/5
Mistral Large 3 es un modelo competent pero sin un gancho claro salvo su Agents API. Su español es mediocre, su razonamiento queda por debajo de la competencia, y su pricing no es el más barato.
Recomendación: Considera Mistral Large 3 si construyes agents y valoras la licencia Apache 2.0. Para todo lo demás, GPT-5 (calidad), DeepSeek V4 Pro (precio-razonamiento), o Llama 4 Maverick (precio puro) son mejores elecciones.
Lectura relacionada
- Guía de modelos LLM para devs en 2026
- Mistral Remote Agents: guía
- DeepSeek V4 Pro vs GPT-5 vs Claude Opus 4.7
- Open weights vs closed: cuándo compensa
Precios y benchmarks actualizados a mayo 2026.