AI Leaderboards

Los mejores modelos de IA por categoría, actualizados diariamente.

Última actualización: 19 de mayo de 2026

💻 Mejores para Código

Fuente: Aider LLM Leaderboard (aider.chat) — Updated 2026-05-18

#	Modelo	Provider	Score
🥇	GPT-5 (high)	OpenAI	88.0%
🥈	GPT-5 (medium)	OpenAI	86.7%
🥉	o3-pro (high)	OpenAI	84.9%
4	Gemini 2.5 Pro (06-05, 32k think)	Google	83.1%
5	GPT-5 (low)	OpenAI	81.3%
6	o3 (high)	OpenAI	81.3%
7	Grok 4 (high)	xAI	79.6%
8	Gemini 2.5 Pro (06-05, default think)	Google	79.1%
9	o3 (high) + GPT-4.1	OpenAI	78.2%
10	o3	OpenAI	76.9%

🧠 Mejores para Razonamiento

Fuente: Arena AI (LMSYS) — Updated 2026-05-18

#	Modelo	Provider	Score
🥇	Claude Opus 4.6 (thinking)	Anthropic	#1 Arena
🥈	Claude Opus 4.7 (thinking)	Anthropic	#2 Arena
🥉	Claude Opus 4.6	Anthropic	#3 Arena
4	Claude Opus 4.7	Anthropic	#4 Arena
5	Muse Spark	Meta	#5 Arena
6	Gemini 3.1 Pro Preview	Google	#6 Arena
7	Gemini 3 Pro	Google	#7 Arena
8	GPT-5.5 (high)	OpenAI	#8 Arena
9	GPT-5.4 (high)	OpenAI	#9 Arena
10	Grok 4.20 Beta 1	xAI	#10 Arena

🔊 Mejores TTS

Fuente: TTS Arena / Community benchmarks

#	Modelo	Provider	Score
🥇	ElevenLabs Turbo v4	ElevenLabs	4.6/5
🥈	OpenAI TTS HD	OpenAI	4.5/5
🥉	Google Cloud TTS	Google	4.3/5
4	Fish Speech	Fish Audio	4.2/5
5	Kokoro ONNX	Open Source	4.1/5

🇪🇸 Mejores TTS Español

Fuente: Community benchmarks

#	Modelo	Provider	Score
🥇	ElevenLabs Turbo v4	ElevenLabs	4.7/5
🥈	OpenAI TTS HD	OpenAI	4.4/5
🥉	Kokoro ONNX	Open Source	4.2/5
4	Google Cloud TTS (es-ES)	Google	4.0/5
5	Piper TTS	Open Source	3.8/5

🎤 Mejores STT Español

Fuente: Common Voice / Community benchmarks

#	Modelo	Provider	Score
🥇	Whisper Large V3 Turbo	OpenAI (OS)	WER 6.2%
🥈	Google Cloud STT	Google	WER 6.5%
🥉	Azure Speech	Microsoft	WER 7.0%
4	Deepgram Nova-2	Deepgram	WER 7.3%
5	AssemblyAI	AssemblyAI	WER 7.8%

✍️ Escritura Creativa

Fuente: Arena AI (LMSYS)

#	Modelo	Provider	Score
🥇	Claude Opus 4.7 (thinking)	Anthropic	1503
🥈	Claude Opus 4.6 (thinking)	Anthropic	1502
🥉	Muse Spark	Meta	1490
4	Gemini 3.1 Pro Preview	Google	1492
5	Gemini 3 Pro	Google	1486

🌍 Multilingües

Fuente: Arena AI (LMSYS)

#	Modelo	Provider	Score
🥇	Claude Opus 4.7 (thinking)	Anthropic	1503
🥈	Claude Opus 4.6 (thinking)	Anthropic	1502
🥉	Claude Opus 4.7	Anthropic	1491
4	Gemini 3.1 Pro Preview	Google	1492
5	Grok 4.20	xAI	1480

💻 Mejores Open Source para Código

Fuente: Aider LLM Leaderboard (aider.chat)

#	Modelo	Provider	Score
🥇	DeepSeek-V3.2-Exp (Reasoner)	DeepSeek	74.2%
🥈	DeepSeek R1 (0528)	DeepSeek	71.4%
🥉	DeepSeek-V3.2-Exp (Chat)	DeepSeek	70.2%
4	Qwen3 235B A22B	Alibaba	59.6%
5	Kimi K2	Moonshot AI	59.1%
6	DeepSeek R1	DeepSeek	56.9%
7	Qwen3 32B	Alibaba	40.0%
8	Gemma 3 27B	Google	4.9%

🧠 Mejores LLM Open Source

Fuente: Open LLM Leaderboard / MMLU-Pro / GPQA / AA Index

#	Modelo	Provider	Score
🥇	Gemini 3 Pro	Google	#7 Arena (1486)
🥈	Muse Spark	Meta	#6 Arena (1490)
🥉	Grok 4.20 Beta 1	xAI	#9 Arena (1480)
4	Gemini 3 Flash	Google	#16 Arena
5	Qwen3.5 Max Preview	Alibaba	#25 Arena
6	DeepSeek V4 Pro	DeepSeek	#27 Arena
7	Kimi K2.6	Moonshot AI	#28 Arena
8	Gemma 4 31B	Google	#39 Arena

🎨 Mejores Open Source: Generación de Imágenes

Fuente: Artificial Analysis / Community benchmarks

#	Modelo	Provider	Score
🥇	FLUX.1 [schnell]	Black Forest Labs	~4.4/5
🥈	HunyuanImage-3.0	Tencent	~4.3/5
🥉	FLUX.1 [dev]	Black Forest Labs	~4.2/5
4	Stable Diffusion 3.5 Large	Stability AI	~4.1/5
5	HiDream-I1-Full	HiDream.ai	~4.0/5
6	SANA-Sprint 1.6B	NVIDIA	~3.7/5

🎬 Mejores Open Source: Imagen a Vídeo

Fuente: Artificial Analysis / Community benchmarks

#	Modelo	Provider	Score
🥇	WAN2.2-14B	Alibaba	~4.3/5
🥈	HunyuanVideo	Tencent	~4.1/5
🥉	LTX-2.3	Lightricks	~3.9/5

📄 Mejores Open Source: OCR

Fuente: Community benchmarks / Artificial Analysis

#	Modelo	Provider	Score
🥇	GLM-OCR	Zhipu AI	~4.5/5
🥈	nemotron-ocr-v2	NVIDIA	~4.3/5
🥉	Falcon-OCR	TII	~4.1/5
4	TrOCR-large	Microsoft	~3.8/5
5	BLIP-large	Salesforce	~3.6/5

🔊 Mejores TTS Open Source

Fuente: TTS Arena / Community benchmarks

#	Modelo	Provider	Score
🥇	Qwen3-TTS	Alibaba	~4.4/5
🥈	Fish Speech S2	Fish Audio	~4.2/5
🥉	CosyVoice 3.0	Alibaba	~4.1/5
4	Kokoro ONNX	Open Source	4.1/5
5	Piper TTS	Open Source	3.8/5

🎤 Mejores ASR Open Source

Fuente: Common Voice / Community benchmarks

#	Modelo	Provider	Score
🥇	Whisper Large V3 Turbo	OpenAI (OS)	WER 6.2%
🥈	FunASR	Alibaba	~WER 6.5%
🥉	VibeVoice-ASR	Open Source	~WER 7.1%

🎵 Mejores Open Source: Generación de Música

Fuente: Community benchmarks

#	Modelo	Provider	Score
🥇	ACE-Step 1.5	Alibaba	~4.2/5
🥈	MusicGen-large	Meta	~3.9/5
🥉	AudioLDM-2	Open Source	~3.5/5

💻 Mejores Modelos Locales por Hardware

💻 Local: 8GB RAM

Fuente: Ollama benchmarks

#	Modelo	Provider	Score
🥇	Qwen3.5 9B	Alibaba	~72 MMLU
🥈	Gemma 4 E4B	Google	69.4 MMLU-Pro
🥉	Qwen3 8B	Alibaba	MMLU 72.1
4	Gemma 4 E2B	Google	60.0 MMLU-Pro
5	Phi-4 Mini	Microsoft	MMLU 67.2

🖥️ Local: 16GB RAM

Fuente: Ollama benchmarks

#	Modelo	Provider	Score
🥇	Gemma 4 31B	Google	85.2 MMLU-Pro
🥈	Qwen3.5 35B	Alibaba	~80 MMLU-Pro
🥉	Llama 3.3 70B (Q4)	Meta	MMLU 80.1
4	Qwen3 32B	Alibaba	MMLU 79.5
5	Mistral Small 24B	Mistral	MMLU 78.3

🎮 Local: RTX 4060 (8GB VRAM)

Fuente: Ollama benchmarks

#	Modelo	Provider	Score
🥇	Gemma 4 26B A4B	Google	82.6 MMLU-Pro
🥈	Qwen3.5 9B (Q8)	Alibaba	~72 MMLU
🥉	Qwen3 8B (Q8)	Alibaba	MMLU 72.1
4	Gemma 4 E4B	Google	69.4 MMLU-Pro
5	Phi-4 Mini (Q6)	Microsoft	MMLU 66.8

🍎 Local: M1 Mac (16GB)

Fuente: MLX benchmarks

#	Modelo	Provider	Score
🥇	Gemma 4 26B A4B	Google	82.6 MMLU-Pro
🥈	Qwen3.5 35B (Q4)	Alibaba	~80 MMLU-Pro
🥉	Llama 3.3 70B (Q2)	Meta	~75 MMLU
4	Qwen3 32B (Q4)	Alibaba	~78 MMLU
5	Gemma 4 31B (Q3)	Google	~80 MMLU-Pro