Pith: cómo reducir los costes de tokens de tu LLM un 30%

Si usas LLMs en producción, sabes que los tokens se acumulan rápido. Pith es una herramienta open-source que promete reducir ese coste hasta un 30% sin cambiar tu código.

¿Qué es Pith?

Pith es un proxy inverso para APIs de LLM. Se sitúa entre tu aplicación y proveedores como OpenAI, Anthropic o Google, y optimiza las peticiones de forma transparente.

# Antes
client = OpenAI(api_key="sk-...")

# Después (cambia solo la base URL)
client = OpenAI(
    api_key="sk-...",
    base_url="http://localhost:4000/v1"  # Pith proxy
)

Cómo funciona

1. Caché semántico

No cachea por texto exacto — cachea por significado. Si dos prompts piden lo mismo con palabras distintas, Pith devuelve la respuesta cacheada.

2. Prompt compression

Comprime el contexto del sistema y prompts repetitivos antes de enviarlos, reduciendo tokens sin perder semántica.

3. Smart routing

Redirige peticiones al modelo más barato que puede manejarlas. No necesitas GPT-4o para clasificar un email.

4. Batch optimization

Agrupa peticiones concurrentes para aprovechar mejor las rate limits.

¿Cuánto ahorras?

Depende del uso, pero el caso típico:

Escenario	Sin Pith	Con Pith	Ahorro
Chatbot repetitivo	$100/mes	$65/mes	35%
Agentes con contexto largo	$200/mes	$150/mes	25%
API mixta (varios modelos)	$300/mes	$210/mes	30%

¿Para quién tiene sentido?

Ideal para:

Agentes que repiten patrones de consulta
Aplicaciones con alto volumen de peticiones
Setups multi-modelo
Equipos que quieren optimizar sin refactorizar

Probablemente no worth it para:

Proyectos personales con bajo uso
Peticiones altamente únicas (no hay cache semántico que ayude)
Cuando la latencia extra del proxy es inaceptable

Alternativas

LiteLLM — Proxy multi-proveedor con routing, pero sin caché semántico nativo
Helicone — Observabilidad + caching, pero es SaaS de pago
PromptLayer — Foco en tracking y versionado de prompts
OpenRouter — Routing entre proveedores, pero funciona a nivel de modelo no de petición

Instalación rápida

git clone https://github.com/getsynth/pith
cd pith
docker compose up -d

Configura tu API key y apunta tu aplicación a localhost:4000. Listo.

Veredicto

Pith es una de esas herramientas que deberías probar si gastas más de $50/mes en APIs de LLM. El ahorro no es mágico — depende de tu patrón de uso — pero para la mayoría de workloads de agentes, un 20-30% de ahorro con zero refactor es un ROI excelente.

Basado en la discusión en r/openclaw sobre optimización de costes en agentes de IA.