Cómo automatizar tu investigación con agentes: guía práctica
La investigación manual consume horas. Escanear papers, leer resúmenes, tomar notas, cruzar fuentes… ¿Y si un agente hiciera todo eso por ti?
El problema
Un investigador o profesional dedica entre 5-10 horas semanales solo a recopilar información. Ese tiempo podría usarse en análisis y toma de decisiones.
Solución: agentes de investigación
Un agente de investigación puede:
- Escanear fuentes — arXiv, PubMed, Reddit, Twitter, HN
- Filtrar por relevancia — Solo lo que importa para tu tema
- Resumir — Extraer los puntos clave
- Cruzar fuentes — Detectar patrones entre papers
- Entregar un digest — Resumen listo para leer en 5 minutos
Prerrequisitos
- Node.js 20+
- OpenClaw instalado (
npm i -g openclaw) - Acceso a APIs de fuentes (arXiv, Semantic Scholar, OpenAlex)
- Cuenta de Telegram o Email para recibir el digest (opcional)
Setup práctico con OpenClaw
Paso 1: Instalar dependencias
npm install openclaw @openclaw/mcp-semantic-scholar @openclaw/mcp-arxiv openclaw-mcp-tools
Paso 2: Crear el archivo de configuración
Crea research-agent.yaml:
agent:
name: ResearchDigest
model: zai/glm-4.5-air
maxIterations: 15
tools:
- mcp:arxiv-search
params:
categories: ["cs.AI", "cs.LG", "cs.CL"]
maxResults: 20
- mcp:semantic-scholar
params:
fields: ["title","abstract","year","citationCount"]
limit: 15
- mcp:openalex
params:
filter: "primary_topic.field:G44"
- mcp:reddit-search
params:
subreddits: ["MachineLearning", "LocalLLaMA"]
limit: 10
memory:
enabled: true
persist: true
output:
format: markdown
destination: ./digests
schedule: "0 8 * * *" # diario a las 8am
Paso 3: Configurar credenciales
Para APIs que requieran clave, usa variables de entorno:
export SEMANTIC_SCHOLAR_API_KEY="..."
export OPENALEX_EMAIL="[email protected]" # para polite pool
OpenClaw las recoge automáticamente.
Paso 4: Probar el agente
openclaw run --config research-agent.yaml --dry-run
Esto simula la ejecución sin guardar resultados.
Paso 5: Ponerlo en producción
openclaw schedule --config research-agent.yaml
El agente correrá según la schedule y generará archivos digests/YYYY-MM-DD.md.
Herramientas que puedes usar
- OpenClaw — Para automatización completa con agentes
- Semantic Scholar API — Papers con citations
- OpenAlex — 200M+ works académicos
- arXiv — Papers de CS, física, matemáticas
- Reddit MCP — Discusiones de comunidad
- Twitter/X API — Hilos de investigadores (requiere cuenta)
Resultados esperados
Con un buen setup puedes pasar de 10 horas a 30 minutos de investigación semanal.
El digest incluirá:
- Títulos y abstracts de papers relevantes,
- Enlaces directos,
- Conteo de citas,
- Hilos de Reddit destacados,
- Resumen ejecutivo generado por el LLM.
Coste estimado
Usando zai/glm-4.5-air (gratuito) y APIs públicas con límites:
- Semantic Scholar: 100K requests/día gratis
- OpenAlex: sin límite estricto, usa email en User-Agent
- arXiv: rate limit bajo, ok
Coste casi cero salvo que uses modelos caros para resúmenes. Mejor guardar frontier para análisis posteriores, no para discovery.
Problemas comunes
Demasiados resultados → Ajusta los filtros de categoría y aumenta el threshold de relevancia en la configuración del agente.
Poca relevancia → Mejora el prompt de filtering en el agente: “Only include papers where the abstract explicitly mentions X”.
Rate limits → Espacia las búsquedas, usa batch requests, o duerme entre llamadas.
Cache → Activa persistencia de memoria para no re-scannear lo mismo.
Variaciones
- Alertas de keywords — Monitorizar mención de términos específicos.
- Author tracking — Seguir a investigadores clave.
- Competitor analysis — Rastrear lanzamientos de empresas.
- Grant tracking — Nuevas convocatorias en funding.
Siguientes pasos
- Integrar con Notion/Notion API para almacenar digests.
- Añadir herramienta de summarización más potente (Claude 4 Sonnet via OpenRouter) para abstracts extensos.
- Enviar digest por Telegram o WhatsApp usando bots.
- Crear dashboard con búsqueda temporal y estadísticas.
Conclusión: Automatizar la investigación no elimina el juicio humano, pero sí multiplica el ancho de banda. Configura, itera y ajusta los filtros. Un agente mal configurado ruina más de lo que ayuda; uno bien afinado puede ahorrar decenas de horas al mes.