Validación multi-modelo: mejores outputs sin pagar modelos frontier
La intuición dice: mejor modelo = mejor output. Pero hay un truco que la comunidad está usando con resultados excelentes: validación multi-modelo.
El patrón drafter/reviewer/approver
En vez de enviar todo a GPT-4o o Claude Opus, divides el trabajo:
1. DRAFTER (modelo barato) → genera el primer borrador
2. REVIEWER (modelo medio) → revisa y mejora
3. APPROVER (modelo potente) → validación final (opcional)
¿Por qué funciona?
La generación es la parte cara. Un modelo de $0.50/MTok puede generar un borrador decente en segundos. Un modelo de $15/MTok no genera 30x mejor contenido — pero sí es 30x mejor detectando errores.
La clave: la revisión es más fácil que la creación. Un modelo medio puede detectar errores en un texto que no habría escrito tan bien.
Setup práctico
# Drafter: genera borrador
draft = call_model("gpt-4o-mini", system_prompt, user_prompt)
# Reviewer: revisa y mejora
review = call_model("claude-3.5-sonnet",
"Revisa este borrador. Corrige errores, mejora claridad.",
draft
)
# Approver: validación final (solo para contenido crítico)
if is_critical:
approval = call_model("claude-opus-4",
"¿Este contenido es preciso y completo? Lista issues.",
review
)
Comparativa de costes
Para generar y revisar 100 artículos de blog (~2000 tokens input, ~1000 tokens output cada uno):
| Enfoque | Modelo | Coste/MTok | Coste total |
|---|---|---|---|
| Solo frontier | Claude Opus | $15/$75 | ~$25 |
| Solo frontier | GPT-4o | $2.50/$10 | ~$5 |
| Multi-model | Mini + Sonnet | $0.15/$0.60 + $3/$15 | ~$1.20 |
| Solo cheap | GPT-4o-mini | $0.15/$0.60 | ~$0.20 |
El enfoque multi-modelo cuesta ~$1.20 vs ~$5 con GPT-4o solo, y la calidad es comparable o superior gracias a la revisión por un modelo más capaz.
¿Cuándo funciona mejor?
Ideal para:
- Generación de contenido (artículos, emails, reportes)
- Code review (modelo barato escribe, modelo bueno revisa)
- Data analysis (modelo barato procesa, modelo bueno interpreta)
- Traducción (modelo barato traduce, modelo bueno corrige)
Menos útil para:
- Tareas de razonamiento profundo (math, logic puzzles)
- Creative writing donde la “voz” importa más que la corrección
- Conversaciones en tiempo real (la latencia se acumula)
Implementación en OpenClaw
En un setup multi-agente, puedes asignar diferentes modelos a diferentes roles:
agents:
writer:
model: gpt-4o-mini # barato, genera rápido
role: draft content
reviewer:
model: claude-3.5-sonnet # medio, revisa bien
role: review and improve
editor:
model: claude-opus-4 # caro, solo para contenido estrella
role: final approval
El principio general
Usa el modelo más barato que pueda hacer el trabajo. No delegues a un modelo de $15/MTok algo que un modelo de $0.60/MTok puede manejar. Los modelos frontier son para las decisiones que realmente importan.
Este principio escala: si tienes 10 tareas, probablemente 7 pueden ir a modelos baratos, 2 a modelos medios, y 1 a frontier. El coste total cae dramáticamente sin sacrificar calidad.
Alternativas y herramientas
- LiteLLM — Router que puede implementar este patrón automáticamente
- Pith — Proxy con smart routing (ver artículo anterior)
- OpenRouter — Acceso a múltiples modelos desde una API
Basado en discusiones en r/better_claw sobre optimización de costes y patrones multi-modelo.