Cloudflare bloqueará agentes IA por defecto: qué significa para devs desde el 15 de septiembre

TL;DR

Fecha límite: 15 de septiembre de 2026
Cambio: Cloudflare bloqueará por defecto bots clasificados como Training o Agent en páginas que muestran anuncios.
Mixed-purpose crawlers (combinan búsqueda + entrenamiento) también se bloquearán.
Search crawlers seguirán permitidos por defecto.
Alcance: ~20% de los sitios web usan Cloudflare; la nueva política afecta a todos los dominios nuevos y a los clientes gratuitos existentes.
Implicación: Agentes de IA que hacen web scraping, crawling o browsing se encontrarán con bloqueos masivos en sitios con ads.
Modelo emergente: Pay-per-crawl; las empresas de IA deberán pagar a los editores por acceso.

Contexto

El 1 de julio de 2026, Cloudflare anunció una actualización histórica de sus políticas de bots. A partir del 15 de septiembre de 2026, los defaults para nuevos dominios y para clientes gratuitos existentes cambiarán: los bots clasificados como Training (entrenamiento de modelos) y Agent (agentes que actúan en nombre de un usuario) serán bloqueados por defecto en cualquier página que muestre anuncios. Los crawlers de búsqueda (Search) seguirán permitidos.

Esta decisión no es solo técnica; es una redefinición económica de la relación entre publishers y la industria de la IA. Cloudflare, que protege aproximadamente el 20% de los sitios web, está forzando a las empresas de IA a separar sus crawlers por propósito y, en muchos casos, a pagar por el contenido que extraen.

Para desarrolladores que construyen o utilizan agentes de IA, scraping tools, o sistemas automatizados de recolección de datos, este cambio significa que un quinto de la web puede volverse inaccesible a menos que se adapten.

Qué anunció Cloudflare exactamente

La nueva taxonomía de bots

Cloudflare ha definido tres categorías claras para el comportamiento de bots relacionado con IA:

Categoría	Definición	Ejemplos
Search	Crawlers que recopilan o indexan contenido para responder preguntas sobre él más tarde. Construyen una base de datos de tu sitio para responder consultas.	Googlebot (indexación para búsqueda), Bingbot
Agent	Actividad automatizada que actúa en tiempo real en nombre de una persona, para realizar una tarea inmediata.	ChatGPT-User (fetch bots), agentes que usan navegador (Gemini/Claude conduciendo Chrome)
Training	Crawlers que toman contenido para entrenar o afinar un modelo. Los datos se absorben permanentemente en la arquitectura del modelo.	Claude/OpenAI/Google crawlers para datasets de entrenamiento

Configuraciones por defecto a partir del 15-Sep-2026

Para nuevos dominios que se unan a Cloudflare, y para clientes gratuitos existentes, los defaults serán:

Search: Permitido (Allow)
Agent: Bloqueado en páginas con anuncios (Block on pages with ads)
Training: Bloqueado en páginas con anuncios (Block on pages with ads)
Mixed-purpose crawlers (combinan Search + Training): Bloqueados automáticamente por las configuraciones que bloquean Training.

Los clientes pueden anular estos defaults manualmente desde el dashboard de Cloudflare (> Configuración de Seguridad > Políticas de bots de IA).

Mixed-purpose crawlers: el puntoConflictivo

Muchos crawlers populares realizan múltiples funciones. Por ejemplo, Googlebot indexa para Búsqueda, pero también alimenta características de IA como AI Overviews y AI Mode. Según la nueva taxonomía, si un crawler combina Search y Training en un solo agente, será considerado mixed-purpose y será bloqueado por cualquier configuración que bloquee Training (incluyendo el legacy “Block AI bots”).

Cloudflare cita específicamente a “el mayor motor de búsqueda del mundo” (Google) como teniendo acceso a aproximadamente “el doble de información” que otras empresas de IA, precisamente porque resulta difícil para los clientes permitir la búsqueda sin permitir también el entrenamiento.

Google ha respondido señalando su bot Google Extended, que permite a los sitios optar por no ser usados para entrenamiento de modelos Gemini/Vertex sin afectar su inclusion en Google Search. Sin embargo, Googlebot sigue siendo el mismo crawler que sirve tanto para búsqueda como para funciones de IA, por lo que los sitios que bloqueen Training verán a Googlebot bloqueado en páginas con anuncios.

Alcance y transición

A quién afecta: Nuevos clientes de Cloudflare, nuevos sitios creados por clientes existentes, y todos los clientes del plan gratuito existente.
Clientes de pago: Pueden mantener sus configuraciones actuales o ajustarlas manualmente; no se verán forzados a los nuevos defaults a menos que lo elijan.
Timeline: Hasta el 15 de septiembre de 2026, todos los clientes pueden optar por excluirse de los nuevos defaults. Después de esa fecha, los defaults aplicarán a los grupos mencionados.

Impacto en agentes de IA

Web scraping y data collection

Cualquier agente de IA que:

Recopile datos de sitios web para entrenar o afinar modelos.
Haga crawling de páginas con anuncios para construir datasets.
Use crawlers genéricos que no se identifiquen claramente como Search-only.

…verá sus intentos de acceso bloqueados por Cloudflare en ~20% de la web.

Para agentes que realizan tareas de browsing en tiempo real (por ejemplo, un agente que consulta una página para responder una pregunta del usuario), la clasificación como Agent significa que también serán bloqueados en páginas con anuncios a menos que el sitio lo permita expresamente.

Research agents y data pipelines

Muchos pipelines de recolección de datos para investigación o análisis de mercado dependen de crawling automatizado. Deberán:

Verificar si los sitios objetivo están detrás de Cloudflare.
Revisar robots.txt y las políticas de Bot Management.
Considerar el uso de proveedores de datos con acuerdos de licencia o APIs oficiales.
Si usan crawlers propios, asegurarse de que se identifiquen correctamente y de que su propósito sea claro (si son mixtos, deberían separarse).

SEO y visibilidad en IA

Paradójicamente, si un desarrollador o empresa bloquea los crawlers de entrenamiento para proteger su contenido, también podría estar bloqueando accidentalmente a los crawlers de búsqueda que también realizan funciones de IA (como Googlebot). Esto podría reducir su visibilidad en resultados de búsqueda tradicional y en respuestas de IA generadas por motores que usen esos mismos crawlers.

Cloudflare recomienda a los site owners que separen sus crawlers si quieren permitir búsqueda pero bloquear entrenamiento. Sin embargo, la realidad técnica es que many large crawlers no son easily separable por el sitio; dependen del crawler operator.

Qué deben hacer los desarrolladores

1. Auditar tus dominios en Cloudflare

Si controlas sitios web en Cloudflare, revisa la configuración actual:

Ve a Security Settings > Configure AI bot policies.
Comprueba qué ajustes tienes para Training, Agent y Search.
Decide si quieres mantener los defaults actuales o adoptar los nuevos defaults antes del 15 de septiembre.

2. Actualizar robots.txt (limitado)

robots.txt no es considerado por Cloudflare para estas políticas; son independent. Pero puedes complementar indicando qué bots están permitidos en tu sitio.

3. Configurar reglas de Bot Management

Cloudflare ofrece tres opciones por categoría:

Block (on all pages)
Block on pages with ads
Allow (do not block)

El default propuesto es “Block on pages with ads” para Agent y Training, y “Allow” para Search. Los desarrolladores pueden ajustar esto según su estrategia de monetización y visibilidad.

4. Separar crawlers propios

Si tu proyecto incluye crawlers que combinan búsqueda y entrenamiento, considera:

Crear dos agentes separados: uno para Search (que respete robots.txt y se identifique claramente) y otro para Training (que use APIs oficiales o acuerdos de licencia).
Usar cabeceras y user-agents distintos.
Documentar claramente el propósito de cada crawler.

5. Preparar para el pay-per-crawl

Cloudflare está promoviendo su Pay-Per-Crawl marketplace y, más recientemente, la Monetization Gateway (con protocolo x402). Si tu sitio tiene anuncios, podrías eventualmente recibir compensación por crawls de IA que no bloquees. Estate atento a:

Requisitos para unirte al marketplace.
Configuración de precios por crawl.
Métricas de attribución (Attribution Business Insights).

6. Para empresas de IA: pagar o perder acceso

Si tu empresa depende de datos web para entrenamiento o agentes, tendrás que:

Evaluar qué porcentaje de tu data viene de sitios con Cloudflare.
Contactar a publishers directamente o usar el marketplace de Cloudflare.
Ajustar tu arquitectura de crawlers para separar Search/Agent/Training.
Considerar alternativas: datasets con licencia, APIs comerciales, synths.

El modelo pay-per-crawl

De “crawl sin compensación” a “crawl con pago”

Durante años, la economía del web ha sido: publishers proveen contenido gratis a cambio de tráfico de referencia de los motores de búsqueda. La irrupción de la IA rompió ese contrato implícito: los modelos de IA consumen contenido pero no envían tráfico de vuelta.

Cloudflare, en su “Content Independence Day” del año pasado, lanzó un botón de “Block AI Bots” y un marketplace de Pay-Per-Crawl. Ahora, con los defaults cambiados, están forzando una bifurcación:

Los sitios con anuncios bloquearán por defecto a los bots que no sean puramente de búsqueda.
Si las empresas de IA quieren acceder a ese contenido, deben compensar al publisher.
Cloudflare facilita el cobro mediante x402 (protocolo abierto de pagos) y su Monetization Gateway.

Quién paga a quién

AI company → Publisher: por cada crawl de contenido protegido (Training/Agent en páginas con ads).
Publisher → Cloudflare: una comisión por transacción (precio no publicado).
El monto lo fija el publisher, o puede ser dinámico según el tipo de contenido.

Este modelo podría escalar a otros proveedores de infraestructura (Fastly, Akamai) y a CDNs en general.

Conclusión

El cambio de Cloudflare el 15 de septiembre de 2026 no es solo un ajuste de configuración; es un punto de inflexión en la relación entre la web y la inteligencia artificial. Para los desarrolladores, significa:

Revisar urgentemente la configuración de bots en Cloudflare si tienes sitios con anuncios.
Adaptar agentes y crawlers para que se identifiquen claramente y separen por propósito.
Considerar vías legales/licenciadas para obtener datos de entrenamiento.
Monitorear cómo evoluciona el modelo de pago por acceso y si se extiende a otros CDNs.

La IA no puede ignorar la infraestructura que la sustenta. Cloudflare ha puesto sobre la mesa la pregunta: ¿quién paga por el contenido que alimenta a los modelos? La respuesta, a partir de septiembre, será “por defecto, nadie entra gratis”. Los desarrolladores que ignoren esto se encontrarán con que sus agentes topan con muros en una quinta parte de la web.

Fuentes

Cloudflare Blog: “Your site, your rules: new AI traffic options for all customers” (2026-07-01)
https://blog.cloudflare.com/content-independence-day-ai-options/
Cloudflare Developers: “Block AI Bots” documentation
https://developers.cloudflare.com/bots/additional-configurations/block-ai-bots/
TechCrunch: “Cloudflare’s new policy pushes AI companies to pay for publishers’ content”
https://techcrunch.com/2026/07/01/cloudflares-new-policy-pushes-ai-companies-to-pay-for-publishers-content/
The Register: “Cloudflare to block cynical search-and-scrape bots from ad-supported web pages”
https://www.theregister.com/ai-and-ml/2026/07/01/cloudflare-to-block-cynical-search-and-scrape-bots-from-ad-supported-web-pages/5264727
Help Net Security: “Cloudflare changes AI crawler access rules”
https://www.helpnetsecurity.com/2026/07/02/cloudflare-ai-crawler-controls/
Briefs.co: “Cloudflare to Block Mixed-Use AI Crawlers on Ad-Supported Pages”
https://www.briefs.co/news/cloudflare-to-block-mixed-use-ai-crawlers-on-ad-supported-pages-s/
Reddit r/AI_Agents: “Cloudflare is about to block AI agents by default on a fifth of the web” (107 upvotes, 48 comentarios)
https://www.reddit.com/r/AI_Agents/comments/xxxxxx/ (thread discussions)

Nota: Este artículo está escrito siguiendo el tono escéptico y basado en evidencia de GPT Diffusion.