Pith: cómo reducir los costes de tokens de tu LLM un 30%
Si usas LLMs en producción, sabes que los tokens se acumulan rápido. Pith es una herramienta open-source que promete reducir ese coste hasta un 30% sin cambiar tu código.
¿Qué es Pith?
Pith es un proxy inverso para APIs de LLM. Se sitúa entre tu aplicación y proveedores como OpenAI, Anthropic o Google, y optimiza las peticiones de forma transparente.
# Antes
client = OpenAI(api_key="sk-...")
# Después (cambia solo la base URL)
client = OpenAI(
api_key="sk-...",
base_url="http://localhost:4000/v1" # Pith proxy
)
Cómo funciona
1. Caché semántico
No cachea por texto exacto — cachea por significado. Si dos prompts piden lo mismo con palabras distintas, Pith devuelve la respuesta cacheada.
2. Prompt compression
Comprime el contexto del sistema y prompts repetitivos antes de enviarlos, reduciendo tokens sin perder semántica.
3. Smart routing
Redirige peticiones al modelo más barato que puede manejarlas. No necesitas GPT-4o para clasificar un email.
4. Batch optimization
Agrupa peticiones concurrentes para aprovechar mejor las rate limits.
¿Cuánto ahorras?
Depende del uso, pero el caso típico:
| Escenario | Sin Pith | Con Pith | Ahorro |
|---|---|---|---|
| Chatbot repetitivo | $100/mes | $65/mes | 35% |
| Agentes con contexto largo | $200/mes | $150/mes | 25% |
| API mixta (varios modelos) | $300/mes | $210/mes | 30% |
¿Para quién tiene sentido?
Ideal para:
- Agentes que repiten patrones de consulta
- Aplicaciones con alto volumen de peticiones
- Setups multi-modelo
- Equipos que quieren optimizar sin refactorizar
Probablemente no worth it para:
- Proyectos personales con bajo uso
- Peticiones altamente únicas (no hay cache semántico que ayude)
- Cuando la latencia extra del proxy es inaceptable
Alternativas
- LiteLLM — Proxy multi-proveedor con routing, pero sin caché semántico nativo
- Helicone — Observabilidad + caching, pero es SaaS de pago
- PromptLayer — Foco en tracking y versionado de prompts
- OpenRouter — Routing entre proveedores, pero funciona a nivel de modelo no de petición
Instalación rápida
git clone https://github.com/getsynth/pith
cd pith
docker compose up -d
Configura tu API key y apunta tu aplicación a localhost:4000. Listo.
Veredicto
Pith es una de esas herramientas que deberías probar si gastas más de $50/mes en APIs de LLM. El ahorro no es mágico — depende de tu patrón de uso — pero para la mayoría de workloads de agentes, un 20-30% de ahorro con zero refactor es un ROI excelente.
Basado en la discusión en r/openclaw sobre optimización de costes en agentes de IA.