Validación multi-modelo: mejores outputs sin pagar modelos frontier

La intuición dice: mejor modelo = mejor output. Pero hay un truco que la comunidad está usando con resultados excelentes: validación multi-modelo.

El patrón drafter/reviewer/approver

En vez de enviar todo a GPT-4o o Claude Opus, divides el trabajo:

1. DRAFTER (modelo barato) → genera el primer borrador
2. REVIEWER (modelo medio) → revisa y mejora
3. APPROVER (modelo potente) → validación final (opcional)

¿Por qué funciona?

La generación es la parte cara. Un modelo de $0.50/MTok puede generar un borrador decente en segundos. Un modelo de $15/MTok no genera 30x mejor contenido — pero sí es 30x mejor detectando errores.

La clave: la revisión es más fácil que la creación. Un modelo medio puede detectar errores en un texto que no habría escrito tan bien.

Setup práctico

# Drafter: genera borrador
draft = call_model("gpt-4o-mini", system_prompt, user_prompt)

# Reviewer: revisa y mejora  
review = call_model("claude-3.5-sonnet", 
    "Revisa este borrador. Corrige errores, mejora claridad.",
    draft
)

# Approver: validación final (solo para contenido crítico)
if is_critical:
    approval = call_model("claude-opus-4",
        "¿Este contenido es preciso y completo? Lista issues.",
        review
    )

Comparativa de costes

Para generar y revisar 100 artículos de blog (~2000 tokens input, ~1000 tokens output cada uno):

Enfoque	Modelo	Coste/MTok	Coste total
Solo frontier	Claude Opus	$15/$75	~$25
Solo frontier	GPT-4o	$2.50/$10	~$5
Multi-model	Mini + Sonnet	$0.15/$0.60 + $3/$15	~$1.20
Solo cheap	GPT-4o-mini	$0.15/$0.60	~$0.20

El enfoque multi-modelo cuesta ~$1.20 vs ~$5 con GPT-4o solo, y la calidad es comparable o superior gracias a la revisión por un modelo más capaz.

¿Cuándo funciona mejor?

Ideal para:

Generación de contenido (artículos, emails, reportes)
Code review (modelo barato escribe, modelo bueno revisa)
Data analysis (modelo barato procesa, modelo bueno interpreta)
Traducción (modelo barato traduce, modelo bueno corrige)

Menos útil para:

Tareas de razonamiento profundo (math, logic puzzles)
Creative writing donde la “voz” importa más que la corrección
Conversaciones en tiempo real (la latencia se acumula)

Implementación en OpenClaw

En un setup multi-agente, puedes asignar diferentes modelos a diferentes roles:

agents:
  writer:
    model: gpt-4o-mini  # barato, genera rápido
    role: draft content
  
  reviewer:
    model: claude-3.5-sonnet  # medio, revisa bien
    role: review and improve
  
  editor:
    model: claude-opus-4  # caro, solo para contenido estrella
    role: final approval

El principio general

Usa el modelo más barato que pueda hacer el trabajo. No delegues a un modelo de $15/MTok algo que un modelo de $0.60/MTok puede manejar. Los modelos frontier son para las decisiones que realmente importan.

Este principio escala: si tienes 10 tareas, probablemente 7 pueden ir a modelos baratos, 2 a modelos medios, y 1 a frontier. El coste total cae dramáticamente sin sacrificar calidad.

Alternativas y herramientas

LiteLLM — Router que puede implementar este patrón automáticamente
Pith — Proxy con smart routing (ver artículo anterior)
OpenRouter — Acceso a múltiples modelos desde una API

Basado en discusiones en r/better_claw sobre optimización de costes y patrones multi-modelo.