Cómo automatizar tu investigación con agentes: guía práctica

La investigación manual consume horas. Escanear papers, leer resúmenes, tomar notas, cruzar fuentes… ¿Y si un agente hiciera todo eso por ti?

El problema

Un investigador o profesional dedica entre 5-10 horas semanales solo a recopilar información. Ese tiempo podría usarse en análisis y toma de decisiones.

Solución: agentes de investigación

Un agente de investigación puede:

Escanear fuentes — arXiv, PubMed, Reddit, Twitter, HN
Filtrar por relevancia — Solo lo que importa para tu tema
Resumir — Extraer los puntos clave
Cruzar fuentes — Detectar patrones entre papers
Entregar un digest — Resumen listo para leer en 5 minutos

Prerrequisitos

Node.js 20+
OpenClaw instalado (npm i -g openclaw)
Acceso a APIs de fuentes (arXiv, Semantic Scholar, OpenAlex)
Cuenta de Telegram o Email para recibir el digest (opcional)

Setup práctico con OpenClaw

Paso 1: Instalar dependencias

npm install openclaw @openclaw/mcp-semantic-scholar @openclaw/mcp-arxiv openclaw-mcp-tools

Paso 2: Crear el archivo de configuración

Crea research-agent.yaml:

agent:
  name: ResearchDigest
  model: zai/glm-4.5-air
  maxIterations: 15
  tools:
    - mcp:arxiv-search
      params:
        categories: ["cs.AI", "cs.LG", "cs.CL"]
        maxResults: 20
    - mcp:semantic-scholar
      params:
        fields: ["title","abstract","year","citationCount"]
        limit: 15
    - mcp:openalex
      params:
        filter: "primary_topic.field:G44"
    - mcp:reddit-search
      params:
        subreddits: ["MachineLearning", "LocalLLaMA"]
        limit: 10
  memory:
    enabled: true
    persist: true
  output:
    format: markdown
    destination: ./digests
    schedule: "0 8 * * *" # diario a las 8am

Paso 3: Configurar credenciales

Para APIs que requieran clave, usa variables de entorno:

export SEMANTIC_SCHOLAR_API_KEY="..."
export OPENALEX_EMAIL="[email protected]" # para polite pool

OpenClaw las recoge automáticamente.

Paso 4: Probar el agente

openclaw run --config research-agent.yaml --dry-run

Esto simula la ejecución sin guardar resultados.

Paso 5: Ponerlo en producción

openclaw schedule --config research-agent.yaml

El agente correrá según la schedule y generará archivos digests/YYYY-MM-DD.md.

Herramientas que puedes usar

OpenClaw — Para automatización completa con agentes
Semantic Scholar API — Papers con citations
OpenAlex — 200M+ works académicos
arXiv — Papers de CS, física, matemáticas
Reddit MCP — Discusiones de comunidad
Twitter/X API — Hilos de investigadores (requiere cuenta)

Resultados esperados

Con un buen setup puedes pasar de 10 horas a 30 minutos de investigación semanal.

El digest incluirá:

Títulos y abstracts de papers relevantes,
Enlaces directos,
Conteo de citas,
Hilos de Reddit destacados,
Resumen ejecutivo generado por el LLM.

Coste estimado

Usando zai/glm-4.5-air (gratuito) y APIs públicas con límites:

Semantic Scholar: 100K requests/día gratis
OpenAlex: sin límite estricto, usa email en User-Agent
arXiv: rate limit bajo, ok

Coste casi cero salvo que uses modelos caros para resúmenes. Mejor guardar frontier para análisis posteriores, no para discovery.

Problemas comunes

Demasiados resultados → Ajusta los filtros de categoría y aumenta el threshold de relevancia en la configuración del agente.

Poca relevancia → Mejora el prompt de filtering en el agente: “Only include papers where the abstract explicitly mentions X”.

Rate limits → Espacia las búsquedas, usa batch requests, o duerme entre llamadas.

Cache → Activa persistencia de memoria para no re-scannear lo mismo.

Variaciones

Alertas de keywords — Monitorizar mención de términos específicos.
Author tracking — Seguir a investigadores clave.
Competitor analysis — Rastrear lanzamientos de empresas.
Grant tracking — Nuevas convocatorias en funding.

Siguientes pasos

Integrar con Notion/Notion API para almacenar digests.
Añadir herramienta de summarización más potente (Claude 4 Sonnet via OpenRouter) para abstracts extensos.
Enviar digest por Telegram o WhatsApp usando bots.
Crear dashboard con búsqueda temporal y estadísticas.

Conclusión: Automatizar la investigación no elimina el juicio humano, pero sí multiplica el ancho de banda. Configura, itera y ajusta los filtros. Un agente mal configurado ruina más de lo que ayuda; uno bien afinado puede ahorrar decenas de horas al mes.