Los investigadores de inteligencia artificial de Microsoft expusieron accidentalmente docenas de terabytes de datos confidenciales, incluidas claves privadas y contraseñas, cuando lanzaron un depósito de datos de entrenamiento de código abierto en GitHub. En una nota de investigación compartida con TechCrunch, la startup de seguridad en la nube Wiz dijo que descubrió un repositorio GitHub perteneciente a la unidad de investigación de inteligencia artificial de Microsoft como parte de su trabajo en curso sobre la exposición accidental de datos alojados en la nube.
Este repositorio de GitHub proporciona código fuente abierto y modelos de inteligencia artificial para el reconocimiento de imágenes e indica a los lectores que descarguen el modelo desde una URL de Azure Storage. Sin embargo, Wiz descubrió que la URL estaba configurada para otorgar permisos a toda la cuenta de almacenamiento, exponiendo así por error más datos privados.
Los datos incluían 38 TB de información confidencial, incluidas copias de seguridad personales de las PC de dos empleados de Microsoft. Los datos también contenían otros datos personales confidenciales, incluidas contraseñas y claves para los servicios de Microsoft y más de 30.000 mensajes internos de Microsoft Teams de cientos de empleados de Microsoft.
Según Wiz, las URL que expusieron estos datos de 2020 también se configuraron incorrectamente para permitir permisos de "Control total" en lugar de "Solo lectura", lo que significa que cualquiera que supiera dónde buscar podría eliminar, reemplazar e inyectar contenido malicioso.
Wiz señaló que la cuenta de almacenamiento no estuvo expuesta directamente. En cambio, los desarrolladores de IA de Microsoft incluyeron un token de firma de acceso compartido (SAS) con permisos excesivos en la URL. Los tokens SAS son un mecanismo utilizado por Azure para permitir a los usuarios crear vínculos compartibles que otorguen acceso a los datos de la cuenta de almacenamiento de Azure.
Ami Luttwak, cofundador y director de tecnología de Wiz, dijo: "La inteligencia artificial ha desbloqueado un enorme potencial para las empresas de tecnología. Sin embargo, a medida que los científicos e ingenieros de datos se apresuran para poner en producción nuevas soluciones de inteligencia artificial, los datos masivos que manejan requieren controles de seguridad y medidas de protección adicionales. Dado que muchos equipos de desarrollo necesitan procesar grandes cantidades de datos, compartir datos con pares o colaborar en proyectos públicos de código abierto, casos como el de Microsoft son cada vez más difíciles de monitorear y evitar".
Wiz dijo que compartió sus hallazgos con Microsoft el 22 de junio, y Microsoft revocó los tokens SAS dos días después, el 24 de junio. Microsoft dijo que completó su investigación sobre el posible impacto organizacional el 16 de agosto.
"No se expusieron datos de clientes y ningún otro servicio interno estuvo en riesgo como resultado de este problema", dijo Microsoft Security Response en una publicación de blog compartida antes de la publicación.
Microsoft dijo que, basándose en los hallazgos de Wiz, ha ampliado el servicio de escaneo de secretos de GitHub, que monitorea los cambios en todo el código fuente abierto público para evitar la exposición de credenciales y otros secretos en texto claro, incluido cualquier token SAS que pueda tener vencimientos de permisos o permisos excesivos.