Un fallo de ChatGPT filtra consejos privados a Google Search Console

En septiembre de este año, algunos desarrolladores que utilizaban Google Search Console descubrieron una anomalía: aparecía un texto similar a un chat en el informe de tráfico de búsqueda del sitio web en lugar de los términos de búsqueda breves anteriores. Estas nuevas entradas se parecen más a conversaciones privadas entre usuarios y chatbots sobre preguntas personales o relacionadas con el trabajo, en lugar de las solicitudes habituales de búsqueda de visitantes del sitio.

Google Search Console se utilizó originalmente para mostrar cómo los usuarios acceden al sitio web a través de la búsqueda de Google. Para sorpresa de los administradores del sitio web, el nuevo contenido no se parecía en nada a los términos de búsqueda y parecía más bien conversaciones privadas con chatbots que iniciaban sesión en un sistema que se suponía que debía contener sólo datos de análisis de tráfico.

Esta anomalía fue publicada por primera vez por Jason Packer, fundador de la empresa de análisis Quantable, en el blog de la empresa. Trabajando con el consultor de optimización de sitios web Slobodan Manić, pasó semanas replicando el experimento, probando diferentes entradas y rastreando la interacción de la funcionalidad de búsqueda de ChatGPT con el sistema de indexación de Google. Los hallazgos finales revelaron riesgos de privacidad que iban mucho más allá de un "mero mal funcionamiento".

Según las pruebas de Packer y Manić, algunas sesiones de ChatGPT dirigen inadvertidamente las indicaciones de los usuarios a las búsquedas de Google. Lo rastrearon hasta un patrón de URL específico, https://openai.com/index/chatgpt/, que aparece repetidamente al comienzo del contenido filtrado. Cuando Google realiza la segmentación de palabras en la dirección, se analizará en "openai", "index" y "chatgpt". Para los sitios web que tienen una clasificación alta para estas palabras, puede ver que algunas indicaciones de usuario de ChatGPT se registran en el backend de Search Console.

En otras palabras, si un consejo de usuario enviado por ChatGPT desencadena una búsqueda externa, Google a veces registrará el consejo como término de búsqueda. Para los administradores de los sitios afectados, las palabras clave filtradas aparecerán en segundo plano como datos de tráfico.

OpenAI reconoció el problema, calificándolo de "un error de enrutamiento que afectó brevemente a una pequeña cantidad de búsquedas" y dijo que se había solucionado sin dar más detalles. Packer acogió con agrado la solución rápida de OpenAI, pero señaló que la compañía no había abordado la pregunta más importante: si el incidente confirmaba que ChatGPT continuaba eliminando los resultados de búsqueda de Google para mejorar su respuesta.

Este problema involucra el comportamiento de "navegación web" introducido por ChatGPT en la nueva versión del modelo GPT-5: cuando el sistema determina que un mensaje requiere la información externa o más reciente, se activará una búsqueda web. Sin embargo, Packer y Manić descubrieron que había un parámetro "hints=search" en una versión de la interfaz de chat, que activaba una búsqueda casi siempre.

Además, un error en el cuadro de entrada provocó que se agregara la URL de referencia a cada consulta. De esta forma, cada vez que ChatGPT realiza una búsqueda, Google no solo registra la URL, sino también el mensaje del usuario. Debido a que Search Console rastrea toda la cadena de búsqueda, esto hace que las indicaciones del usuario sean "totalmente visibles" para el propietario del sitio correspondiente.

Packer cree que el sistema interactúa directamente con la infraestructura de indexación de Google, en lugar de hacerlo a través de una API privada o un canal de datos interno (que de otro modo no aparecería en Search Console). Esta visibilidad inesperada en realidad muestra que ChatGPT realiza búsquedas en vivo en Google y expone las aportaciones de los usuarios a Google y todos los sitios relacionados.

OpenAI dijo que solo se filtró una cantidad muy pequeña de solicitudes de búsqueda y no proporcionó un número específico, por lo que aún no está claro cuántos de sus 700 millones de usuarios activos semanales se vieron afectados.

Anteriormente, había un problema en el que los usuarios encontraban que sus enlaces públicos a ChatGPT estaban incluidos en el sitio web principal de Google. En ese momento, OpenAI afirmó que el usuario había accionado por error el interruptor para compartir. En este caso, Packer enfatizó que ninguna acción del usuario provocó la filtración. "No existe ningún mecanismo de consentimiento", dijo a Ars Technica en una entrevista. "Nadie hizo clic en 'compartir' y las palabras del mensaje se dirigieron incorrectamente". A diferencia de las páginas públicas, los usuarios afectados no pueden eliminar manualmente las entradas en Search Console, por lo que el contenido siempre estará expuesto a los propietarios de sitios web que clasifican según palabras clave relevantes.

Los investigadores sospechan que la anomalía también puede estar relacionada con un fenómeno conocido en los círculos de análisis de motores de búsqueda como la "boca de cocodrilo": un aumento en las impresiones pero una caída en los clics en el gráfico de Search Console. Si el sistema OpenAI consulta repetidamente a Google con una gran cantidad de consultas sintéticas, es probable que distorsione estos datos de análisis.

Packer y Manić aún no pueden confirmar si la solución de OpenAI bloquea completamente todos los tipos de filtraciones de palabras o solo resuelve un error en el mecanismo de enrutamiento de URL específico. Dijeron que debían seguir prestando atención. "Aún no sabemos si afecta sólo a una determinada interfaz o si implica una gama más amplia de conversaciones", dijo Packer. "En resumen, esto nos recuerda que todavía existen muchos riesgos incontrolables e impredecibles en el procesamiento de datos de los usuarios por parte de los sistemas detrás de estas herramientas de IA".