Según noticias publicadas por WIRED, muchos sitios web en los Estados Unidos han comenzado a bloquear la función de instantáneas de Wayback Machine de Internet Archive, es decir, Wayback Machine ya no puede capturar las páginas de estos sitios web de noticias y archivarlas. La razón es que los rastreadores de IA capturan datos y los utilizan para entrenar modelos.

El actual auge de la inteligencia artificial ha provocado que una gran cantidad de tráfico de sitios web disminuya significativamente, y las empresas de inteligencia artificial están encontrando formas de eludir las restricciones y rastrear ilegalmente el contenido de los sitios web y, en última instancia, utilizar los datos capturados para robots conversacionales de inteligencia artificial o para entrenar modelos de inteligencia artificial posteriores.

Para los sitios web, este comportamiento implica rastrear y usar contenido sin permiso, y hará que el tráfico del sitio web disminuya. Por lo tanto, muchos sitios web han prohibido explícitamente a los rastreadores de búsqueda con inteligencia artificial rastrear datos de sitios web en robots.txt.

Tanto Internet Archive como sus usuarios murieron por error:

Para proteger sus derechos e intereses legítimos, muchos medios de comunicación conocidos, incluidos USA Today, New York Times, etc., han bloqueado la máquina del tiempo del sitio web de Internet Archive. Estos sitios web de noticias excluyen el rastreador ia_archiverbot, que es el rastreador utilizado por Internet Archive.

Además de los medios de comunicación, los foros en línea como Reddit también prohíben que Internet Archive rastree contenido. Reddit ha firmado acuerdos de licencia con Google y OpenAI para permitir a estas empresas rastrear datos y utilizarlos para entrenar modelos de inteligencia artificial. Al menos para Reddit, si a Internet Archive se le permite rastrear datos y las empresas de inteligencia artificial luego rastrean los datos de Internet Archive, es posible que no pueda continuar vendiendo datos.

El problema es que gran parte del contenido no existe de forma permanente. La importancia de la máquina del tiempo del sitio web es que puede ver los cambios en el contenido de la página web y continuar navegando por el contenido a través de instantáneas cuando se elimina la página web. Esto es muy importante para muchos usuarios.

Por lo tanto, bajo la locura de la IA, los medios de comunicación que bloquean el rastreo de datos de Internet Archive son en realidad un homicidio involuntario de Internet Archive y de los usuarios: para bloquear las empresas de IA y luego bloquear a los usuarios que normalmente usan funciones relacionadas.

USA Today dijo que esto no estaba dirigido a Internet Archive:

Un portavoz de USA Today dijo que el bloqueo de contenido rastreado por Internet Archive no está dirigido específicamente a Internet Archive. El plan normal de la empresa es bloquear ampliamente todos los rastreadores web.

El director de asuntos comerciales y licencias de The Guardian dijo que la compañía se está comunicando con Internet Archive para discutir el posible uso indebido de las empresas de inteligencia artificial para rastrear contenido con fines de preservación (pero aún no hay un resultado claro).

A juzgar por esta situación, cada vez más medios pueden bloquear Internet Archive en el futuro para evitar que las empresas de inteligencia artificial rastreen su contenido a través de Internet Archive. En última instancia, la causa fundamental siguen siendo estas empresas de inteligencia artificial.

No es raro que estas empresas de inteligencia artificial rastreen contenido sin autorización y con alta frecuencia. En última instancia, esto puede cambiar el panorama de la Internet abierta, permitiendo que más sitios web pasen del acceso público al acceso mediante inicio de sesión registrado o incluso al acceso pago.