Cuando Cloudflare acusó el lunes de perplejidad al motor de búsqueda de IAatrapar en secretoObtener datos del sitio web, aunque ignoraron los métodos específicos mediante los cuales los sitios web lo bloquearon, hubo muchos que defendieron Perplexity. Argumentaron que el comportamiento de Perplexity al acceder a sitios web en contra de los deseos de sus propietarios era controvertido pero aceptable. A medida que los agentes de inteligencia artificial proliferan en Internet, este debate se intensificará: ¿deberían considerarse bots los agentes que visitan sitios web en nombre de los usuarios? ¿O debería considerarse que un ser humano hace la misma petición?

Cloudflare es conocido por proporcionar rastreadores anti-bots y otros servicios de ciberseguridad a millones de sitios web. Básicamente, el caso de prueba de Cloudflare implica la creación de un nuevo sitio web utilizando un nuevo nombre de dominio que nunca ha sido rastreado por ningún robot rastreador; configurar un archivo robots.txt que bloquee específicamente los rastreadores de IA conocidos por Perplexity; y luego preguntando a Perplexity por el contenido del sitio web. La perplejidad responde a esta pregunta.
Los investigadores de Cloudflare descubrieron que cuando el rastreador web del motor de búsqueda de IA estaba bloqueado, estaba usando "un navegador universal diseñado para imitar a Google Chrome en macOS". El director ejecutivo de Cloudflare, Matthew Prince, publicó el estudio sobre
Pero muchos no estuvieron de acuerdo con la evaluación de Prince, argumentando que no se trataba realmente de un mal comportamiento. Aquellos que han defendido a Perplexity en sitios como
"Si yo, como ser humano, solicito un sitio web, entonces debería poder ver su contenido", escribió un usuario en Hacker News, y agregó: "¿Por qué el modelo de lenguaje grande que accede al sitio web en mi nombre estaría en una categoría legal diferente a la de mi navegador web Firefox?"
Un portavoz de Perplexity negó anteriormente que los bots fueran de la compañía y calificó la publicación del blog de Cloudflare como un argumento de venta para Cloudflare. Sin embargo, el martes, Perplexity publicó otra entrada de blog defendiéndose (y su ataque a Cloudflare en general), alegando que el comportamiento fue el resultado de un servicio de terceros que la empresa utiliza ocasionalmente.
Pero el núcleo de la publicación de Perplexity merece tanta atención como sus apologistas en línea, quienes leyeron: "La diferencia entre el scraping automatizado y el impulsado por el usuario no es sólo técnica, se trata de quién tiene acceso a la información en la web abierta. Esta controversia demuestra que los sistemas de Cloudflare son fundamentalmente inadecuados para distinguir entre asistentes legítimos de IA y amenazas reales".
Las acusaciones de Perplexity tampoco son del todo justas. Al criticar el enfoque de Perplexity, Prince y Cloudflare argumentaron que el enfoque de OpenAI es diferente al de Perplexity.
Cloudflare escribe: "OpenAI es un excelente ejemplo de una empresa líder en inteligencia artificial que sigue estas mejores prácticas. Respetan los archivos robots.txt y no intentan eludir las directivas de robots.txt ni el bloqueo a nivel de red. El agente ChatGPT firma solicitudes http utilizando el nuevo estándar abierto Web Bot Auth".
Web Bot Auth es un estándar respaldado por Cloudflare desarrollado por Internet Engineering Task Force con la esperanza de crear un método cifrado para identificar solicitudes de red de agentes de IA.
El debate surge en un momento en que la actividad de los bots está remodelando Internet. Como informó anteriormente TechCrunch, los bots que intentan rastrear grandes cantidades de contenido para entrenar modelos de IA se han convertido en una amenaza, especialmente para sitios web más pequeños.
Según el "Informe sobre bots maliciosos" de Imperva publicado el mes pasado, por primera vez en la historia de Internet, la actividad de los bots superó la actividad humana en línea, y el tráfico de inteligencia artificial representó más del 50%. La mayor parte de esta actividad proviene de LLM. Pero el informe también encontró que los bots maliciosos representan ahora el 37% de todo el tráfico de Internet. Estas actividades van desde la extracción persistente de datos hasta intentos de inicio de sesión no autorizados.
Antes de la llegada de los grandes modelos de lenguaje (LLM), existía un consenso general en Internet de que los sitios web podían y debían bloquear la mayor parte de la actividad de los bots, que a menudo utilizaban CAPTCHA y otros servicios (como Cloudflare). Los sitios web también tienen incentivos claros para trabajar con buenos actores específicos (como el robot de Google) indicándole a través de robots.txt qué contenido no debe indexarse. Google indexa Internet, que a su vez envía tráfico a sitios web.
Hoy en día, los modelos de lenguajes grandes (LLM) están devorando cada vez más tráfico. Gartner predice que el tráfico de los motores de búsqueda disminuirá en un 25% para 2026. Actualmente, las personas tienden a hacer clic en estos enlaces cuando el LLM es más valioso para el sitio, que es cuando están listos para realizar una transacción.
Pero si los humanos, como predice la industria tecnológica, buscarán agentes de manera proactiva (para que nos ayuden a organizar viajes, hacer reservaciones para cenar y comprar para nosotros), ¿perjudicarán los sitios que bloquean a estos agentes sus intereses comerciales? El debate sobre X ilustra perfectamente este dilema:
"¡Quiero que Perplexity pueda acceder a cualquier contenido público en mi nombre cuando le envío solicitudes/tareas!" alguien escribió en el discurso de Cloudflare condenando Perplejidad.
"¿Qué pasa si el propietario del sitio no quiere eso? Sólo quiere que vayas directamente a su página de inicio y mires sus cosas", respondió otro usuario, señalando que el propietario del sitio que creó el contenido quiere tráfico y posibles ingresos publicitarios, no que Perplexity se los lleve.
"He aquí por qué no creo que la 'navegación proxy' realmente funcione: es un problema mucho más difícil de lo que la gente piensa. La mayoría de los propietarios de sitios web simplemente la bloquearán", predijo un tercero.
Artículos relacionados:
Perplejidad acusada de rastrear sitios web que bloquean explícitamente el rastreo de IA