El foro de Reddit impedirá que Internet Archive rastree páginas porque las empresas de inteligencia artificial rastrearán indirectamente data

El conocido foro de Internet Reddit reveló recientemente que la compañía descubrió que una compañía de inteligencia artificial extrajo datos de Reddit a través del sitio web Wayback Machine de Internet Archive, lo que violaba los términos de uso de Reddit.

Reddit ha bloqueado previamente el rastreo de datos de la mayoría de los rastreadores de motores de búsqueda y de inteligencia artificial. Si desea rastrear datos para el entrenamiento de modelos de inteligencia artificial, debe firmar una licencia comercial con Reddit y pagar una tarifa antes de rastrear.

Por ejemplo, Google paga hasta 60 millones de dólares al año al foro Reddit por el acceso a los datos. Google puede rastrear publicaciones masivas de Reddit y otros datos para el entrenamiento de modelos. Este sigue siendo un acuerdo que vale la pena para Google.

Si bien Internet Archive ha trabajado durante mucho tiempo con Reddit para indexar publicaciones y capturarlas en la máquina del tiempo del sitio para que puedan ser vistas en el futuro, las compañías de inteligencia artificial que no quieren pagar las tarifas comenzaron a convertir sus rastreadores en Internet Archive, utilizando Internet Archive como medio para rastrear Reddit.

Después de descubrir esta situación, Reddit decidió comenzar inmediatamente a bloquear el rastreo y la indexación de la mayoría de las páginas por parte de Internet Archive. La función de máquina del tiempo del sitio web ya no puede rastrear páginas de detalles de publicaciones, comentarios e información personal. Por el contrario, la máquina del tiempo del sitio web solo puede rastrear de forma limitada la página de inicio de Reddit o la navegación de publicaciones populares, es decir, solo puede rastrear contenido como títulos.

El director ejecutivo de Reddit dijo que bloquearía la extracción de datos de Internet Archive a partir de hoy y se había puesto en contacto con Internet Archive con antelación para informarles antes de que las restricciones entraran en vigor. Internet Archive dijo que actualmente se está comunicando activamente con Reddit sobre el asunto.

Reddit también demandó anteriormente al desarrollador de Claude, Anthropic. Reddit acusó a Anthropic de rastrear contenido sin autorización. Incluso si Reddit declarara que bloqueó a su rastreador para que no pueda rastrear datos, Anthropic continuaría rastreando contenido y violaría los términos de uso de Reddit.