GPT Diffusion

Pith: cómo reducir los costes de tokens de tu LLM un 30%

2026-04-19 · tools #pith#LLM#proxy#costes#tokens#open-source

Si usas LLMs en producción, sabes que los tokens se acumulan rápido. Pith es una herramienta open-source que promete reducir ese coste hasta un 30% sin cambiar tu código.

¿Qué es Pith?

Pith es un proxy inverso para APIs de LLM. Se sitúa entre tu aplicación y proveedores como OpenAI, Anthropic o Google, y optimiza las peticiones de forma transparente.

# Antes
client = OpenAI(api_key="sk-...")

# Después (cambia solo la base URL)
client = OpenAI(
    api_key="sk-...",
    base_url="http://localhost:4000/v1"  # Pith proxy
)

Cómo funciona

1. Caché semántico

No cachea por texto exacto — cachea por significado. Si dos prompts piden lo mismo con palabras distintas, Pith devuelve la respuesta cacheada.

2. Prompt compression

Comprime el contexto del sistema y prompts repetitivos antes de enviarlos, reduciendo tokens sin perder semántica.

3. Smart routing

Redirige peticiones al modelo más barato que puede manejarlas. No necesitas GPT-4o para clasificar un email.

4. Batch optimization

Agrupa peticiones concurrentes para aprovechar mejor las rate limits.

¿Cuánto ahorras?

Depende del uso, pero el caso típico:

EscenarioSin PithCon PithAhorro
Chatbot repetitivo$100/mes$65/mes35%
Agentes con contexto largo$200/mes$150/mes25%
API mixta (varios modelos)$300/mes$210/mes30%

¿Para quién tiene sentido?

Ideal para:

  • Agentes que repiten patrones de consulta
  • Aplicaciones con alto volumen de peticiones
  • Setups multi-modelo
  • Equipos que quieren optimizar sin refactorizar

Probablemente no worth it para:

  • Proyectos personales con bajo uso
  • Peticiones altamente únicas (no hay cache semántico que ayude)
  • Cuando la latencia extra del proxy es inaceptable

Alternativas

  • LiteLLM — Proxy multi-proveedor con routing, pero sin caché semántico nativo
  • Helicone — Observabilidad + caching, pero es SaaS de pago
  • PromptLayer — Foco en tracking y versionado de prompts
  • OpenRouter — Routing entre proveedores, pero funciona a nivel de modelo no de petición

Instalación rápida

git clone https://github.com/getsynth/pith
cd pith
docker compose up -d

Configura tu API key y apunta tu aplicación a localhost:4000. Listo.

Veredicto

Pith es una de esas herramientas que deberías probar si gastas más de $50/mes en APIs de LLM. El ahorro no es mágico — depende de tu patrón de uso — pero para la mayoría de workloads de agentes, un 20-30% de ahorro con zero refactor es un ROI excelente.

Basado en la discusión en r/openclaw sobre optimización de costes en agentes de IA.

Cargando comentarios...