Cloudflare anunció recientemente que realizará ajustes importantes en la configuración predeterminada de los sitios web que utilizan sus servicios, estableciendo un nuevo "fecha límite" para toda la industria de la inteligencia artificial: exigir a las empresas de inteligencia artificial que distingan claramente los rastreadores web utilizados para la búsqueda tradicional de los rastreadores utilizados para agentes de IA y entrenamiento de modelos antes del 15 de septiembre de este año; de lo contrario, estos rastreadores de "uso mixto" se bloquearán de forma predeterminada en una gran cantidad de páginas publicitarias.

Según los detalles anunciados por Cloudflare, cualquier rastreador de datos que se utilice para búsqueda, invocación de agentes de IA y entrenamiento de modelos al mismo tiempo quedará bloqueado de forma predeterminada si accede a una página web que aloja anuncios, a menos que el propietario del sitio web cambie activamente la configuración relevante. Estas nuevas configuraciones predeterminadas se aplicarán a los nuevos clientes de Cloudflare, a los nuevos sitios creados por clientes existentes y a todos los sitios de usuarios gratuitos existentes. Este movimiento afectará directamente la forma en que los proveedores de modelos de IA obtienen contenido web para capacitación y generación de servicios, y también cambiará el patrón de suministro de datos detrás de los servicios de agentes de IA.

Cloudflare señaló que la mayoría de los propietarios de sitios web esperan que su contenido pueda ser descubierto a través de los motores de búsqueda tradicionales y también están felices de ser citados por los servicios de inteligencia artificial bajo ciertas condiciones, pero no quieren que sus derechos de propiedad intelectual sean apropiados indebidamente de forma gratuita y a gran escala sin autorización. Cloudflare nombró "el motor de búsqueda más grande del mundo" (aparentemente apuntando a Google) en su descripción, diciendo que tiene "aproximadamente el doble de cantidad de información accesible" en comparación con otras empresas de inteligencia artificial. La razón es que el gigante de las búsquedas dificulta que los sitios mantengan la visibilidad de las búsquedas y evita por completo el uso de la IA.

Google siempre ha refutado acusaciones generales similares, enfatizando que proporciona un robot llamado "Google Extended" para que los sitios elijan, que se utiliza para rechazar explícitamente el contenido del sitio web para ser utilizado para capacitación en IA y productos y servicios de IA como Gemini Apps y Vertex API, sin afectar la inclusión del sitio web en la búsqueda de Google. Sin embargo, si bien el rastreador principal de Google, Googlebot, indexa páginas para la búsqueda, también proporciona soporte de datos para funciones de IA integradas en la búsqueda, como descripciones generales de IA y modo AI.

Matthew Prince, cofundador y director ejecutivo de Cloudflare, dijo en el anuncio que a medida que cambia la estructura del tráfico de Internet, "los humanos ya no acceden a la gran mayoría del tráfico de Internet actual". La industria había esperado anteriormente que el punto de inflexión en el que "el tráfico de robots supere al tráfico de personas" no se produciría hasta el próximo año. Enfatizó: “En este caso, debemos ir más allá y avanzar más rápido para formar verdaderamente un ecosistema sostenible”.

Prince dijo que las nuevas herramientas y asociaciones de Cloudflare brindarán a los propietarios de sitios web una mayor visibilidad y oportunidades comerciales en la era de la IA, al tiempo que beneficiarán a los rastreadores de IA con usos claros e intenciones transparentes. Espera que al ajustar la política predeterminada, pueda obligar a los "rastreadores de propósito mixto" a separar claramente la búsqueda tradicional de las llamadas de agentes y los fines de capacitación. A nivel empresarial externo, Cloudflare ofrece una variedad de productos para ayudar a los usuarios a crear sus propios sistemas de inteligencia artificial. Por otro lado, también ha lanzado una serie de herramientas de "mejora del control" para editores y partes interesadas en el contenido en los últimos años.

Ya en 2024, Cloudflare lanzó una herramienta específica para combatir los rastreadores de IA y luego lanzó un mercado llamado "Pago por rastreo" en 2025, que permite a los sitios web cobrar a los rastreadores de IA las tarifas de rastreo. Las últimas noticias muestran que este modelo está evolucionando aún más hacia el "pago por uso", es decir, ya no solo cobra en función del "comportamiento de rastreo", sino que cobra a las empresas de inteligencia artificial en función de la "creación de valor" real del contenido en el sistema de inteligencia artificial.

Cloudflare señaló que este modelo de "pago por uso" no solo proporciona a los editores nuevos canales de ingresos, sino que también ayuda a ahorrar ancho de banda y recursos informáticos, porque sus datos internos muestran que más del 50% del tráfico de rastreo de los rastreadores de IA se gasta en rastrear repetidamente páginas que no se han actualizado. A través de nuevos mecanismos de facturación y control, los editores pueden priorizar recursos limitados en solicitudes verdaderamente valiosas, al tiempo que imponen restricciones financieras a los "rastreos duplicados ineficaces".

En términos de cooperación de implementación específica, Cloudflare ha lanzado actualmente proyectos piloto con dos socios, Ceramic.ai y You.com. Cuando los editores decidan unirse al programa, recibirán la compensación correspondiente siempre que su contenido aparezca en los resultados de búsqueda de IA de Ceramic o You.com acceda a él como una pieza de "contenido premium pago". Cloudflare dijo que otras empresas de inteligencia artificial también pueden personalizar y ampliar este modelo de pago de acuerdo con sus propios formularios de productos.

En el contexto de una creciente atención regulatoria y pública sobre el rastreo de la IA y las cuestiones de derechos de autor, los ajustes de políticas y las actualizaciones del modelo de negocios de Cloudflare tienen obviamente como objetivo ganar más voz y espacio para obtener ganancias para los editores, al mismo tiempo que ejercen nueva presión de transparencia y cumplimiento sobre las empresas de IA. Para la industria de la IA, si bien sigue dependiendo del contenido web masivo para entrenar y ejecutar varios agentes inteligentes, cómo lograr un equilibrio entre la conveniencia técnica y los derechos e intereses de los propietarios de contenido se convertirá en una cuestión central inevitable en el futuro.