Imágenes de Nightshade 'venenos' para detener el entrenamiento de IA y ayudar a proteger a los artistas

Una de las muchas preocupaciones sobre la IA generativa es su capacidad para generar imágenes utilizando imágenes extraídas de Internet sin el permiso del creador original. Pero una nueva herramienta puede resolver este problema "envenenando" los datos utilizados para entrenar el modelo.

MIT Technology Review destaca una nueva herramienta llamada Nightshade creada por investigadores de la Universidad de Chicago. Funciona realizando cambios muy pequeños en los píxeles de la imagen que son invisibles a simple vista antes de cargarlos. Esto envenena los datos de entrenamiento utilizados por herramientas como DALL-E, StableDiffusion y Midjourney, lo que provoca que el modelo falle de forma impredecible.

Algunos ejemplos de cómo la IA generativa puede interpretar incorrectamente imágenes de personas envenenadas con solanáceas incluyen convertir perros en gatos, automóviles en vacas, sombreros en pasteles y bolsos en tostadoras. También es excelente para identificar diferentes estilos artísticos: el cubismo se convierte en anime, los dibujos animados se convierten en impresionismo, el arte conceptual se convierte en abstracción.

Un artículo reciente publicado por investigadores en arXiv describe a Nightshade como un ataque de envenenamiento específico. En lugar de envenenar millones de imágenes, Nightshade puede destruir señales de difusión estables con alrededor de 50 muestras, como se muestra en la imagen a continuación.

Los investigadores escribieron que la herramienta no sólo podría envenenar términos específicos como "perro", sino que también podría "infiltrarse" conceptos relacionados como "cachorro", "sabueso" y "husky". Incluso afecta a imágenes relacionadas indirectamente; por ejemplo, envenenar "Arte de fantasía" convertirá las indicaciones de "un dragón", "un castillo de El señor de los anillos" y "una pintura de Michael Whelan" en algo diferente.

Ben Zhao, profesor de la Universidad de Chicago que dirigió el equipo que creó Nightshade, dijo que espera que la herramienta actúe como un disuasivo para las empresas de inteligencia artificial que no respetan los derechos de autor y de propiedad intelectual de los artistas. Reconoció el potencial de uso malicioso, pero para causar un daño real a modelos más grandes y potentes, los atacantes necesitarían envenenar miles de imágenes porque estos sistemas están entrenados con miles de millones de muestras de datos.

Los entrenadores de modelos de IA generativa también pueden usar defensas contra esta práctica, como el filtrado de datos de alta pérdida, el análisis de frecuencia y otros métodos de detección/eliminación, pero Ben Zhao dijo que no son muy sólidos.

Algunas grandes empresas de IA están dando a los artistas la opción de que su trabajo no se utilice en conjuntos de datos de entrenamiento de IA, pero esto puede ser un proceso arduo y no aborda ningún trabajo que pueda haber sido descartado. Muchos creen que los artistas deberían poder participar en lugar de tener que optar por no participar.