Item: Mistral Large 3
Rating: 3
Author: GPT Diffusion

Metodología

Evaluación basada en uso vía La Plateforme API + self-hosting:

Benchmarks públicos: GPQA Diamond, MMLU-Pro, SWE-bench
Tests propios: coding, agents API, español, tool use
Precios: API oficial mayo 2026
Entorno: La Plateforme API, NVIDIA NIM

Ficha técnica

Proveedor: Mistral AI (Francia)
Parámetros: 123B (densos)
Contexto: 128K tokens
Licencia: Apache 2.0 (open-weight)
Modalidades: Texto, function calling, agents
Pricing: $0.80/1M input, $2.40/1M output

Lo bueno

Agents API nativo

Mistral Large 3 destaca por su Agents API nativo. No es solo function calling: es un framework completo para construir agents:

Handoffs: un agent puede delegar a otro
Contexto persistente: conversaciones con estado
Tool execution: integración nativa con tools
Multi-step: ejecución automática de múltiples pasos

Si construyes agents, la DX de Mistral es competitiva con OpenAI Agents SDK y más accesible que MCP de Anthropic.

Pricing competitivo

A $0.80/$2.40, Mistral Large 3 es:

2.5x más barato que GPT-5 ($2/$10)
3.75x más barato que Opus 4.7 ($3/$15)
Ligeramente más caro que Llama 4 Maverick vía API (~$0.20/$0.80)

Para la calidad que ofrece, el precio es justo.

Open-weight con licencia Apache 2.0

Licencia Apache 2.0 es la más permisiva del mercado open-weight. Sin restricciones de uso, sin límites de usuarios, sin approval de Meta. Para empresas, esto es más simple que la licencia Llama.

Coding decente

Mistral Large 3 mejoró significativamente en coding respecto a Large 2:

SWE-bench: ~55% (vs ~45% en Large 2)
Mejor en Python y TypeScript
Function calling más fiable

No es Opus ni GPT-5, pero es suficiente para tasks de coding moderadas.

Lo malo

Español mediocre

El punto débil más notable. Mistral Large 3 en español es notablemente peor que GPT-5, Opus 4.7, e incluso Llama 4 Maverick:

Construcciones poco naturales
Calcos del francés (no del inglés, curiosamente)
Terminología técnica a veces incorrecta
Tono inconstante (mezcla formal e informal)

Para un blog en español, esto es un problema. Para uso interno (logs, análisis), es aceptable.

Razonamiento por debajo de la competencia

Benchmark	Mistral Large 3	GPT-5	Opus 4.7	Llama 4 Maverick
GPQA Diamond	~45%	~88%	92%	~50%

45% en GPQA Diamond lo pone por debajo incluso de Llama 4 Maverick. No es un modelo de razonamiento. Para tasks de análisis profundo, no es la elección correcta.

Contexto sin ventaja

128K tokens es el estándar. No ofrece ventaja sobre GPT-5 (128K), y queda muy por debajo de Gemini 2.5 Pro (1M) y Claude Opus 4.7 (200K).

Ecosistema inmaduro

La Plateforme tiene menos integraciones que OpenAI o Anthropic:

No hay equivalente a GPTs o Claude Desktop
Menos SDKs oficiales (Python sí, Node.js básico)
Documentación menos completa
Comunidad más pequeña

Casos de uso

✅ Ideal para

Agents con tools (su caso de uso más fuerte)
Coding moderado con Agents API
Workflows en Europa (data residency, GDPR-first)
Proyectos Apache 2.0 donde la licencia importa

⚠️ Aceptable

Coding no crítico
Clasificación y extracción (pero Llama 4 Maverick es más barato)
RAG básico

❌ No recomendado

Contenido en español (usa GPT-5, Opus, o Gemini)
Razonamiento profundo (usa cualquier frontier)
Contexto largo (usa Gemini o Opus)
Producción sin fallback (menos battle-tested que OpenAI/Anthropic)

Comparación con alternativas

Aspecto	Mistral Large 3	GPT-5	DeepSeek V4 Pro	Llama 4 Maverick
Precio input/1M	$0.80	$2.00	$0.55	~$0.20
Razonamiento	~45%	~88%	52%	~50%
Coding	~55%	~76%	~65%	~58%
Agents API	⭐ Mejor	Bueno	Básico	Básico
Español	⚠️ Débil	Excelente	Bueno	Bueno
Licencia	Apache 2.0 ⭐	Propietaria	Personalizada	Llama License

Mistral Large 3 tiene un nicho claro: agents con la DX más pulida y licencia open. Fuera de ese nicho, otros modelos lo superan.

Veredicto

Rating: 3/5

Mistral Large 3 es un modelo competent pero sin un gancho claro salvo su Agents API. Su español es mediocre, su razonamiento queda por debajo de la competencia, y su pricing no es el más barato.

Recomendación: Considera Mistral Large 3 si construyes agents y valoras la licencia Apache 2.0. Para todo lo demás, GPT-5 (calidad), DeepSeek V4 Pro (precio-razonamiento), o Llama 4 Maverick (precio puro) son mejores elecciones.

Lectura relacionada

Precios y benchmarks actualizados a mayo 2026.

Review: Mistral Large 3 — el modelo europeo que mejoró mucho