Un estudio encuentra que las evaluaciones de seguridad de muchos modelos de inteligencia artificial tienen limitaciones importantes

A pesar de las crecientes demandas de seguridad y responsabilidad de la IA, las pruebas y puntos de referencia actuales pueden no ser suficientes, sugiere un nuevo informe. Los modelos de IA generativa (modelos que pueden analizar y generar texto, imágenes, música, videos y más) están recibiendo cada vez más atención debido a su falibilidad y su comportamiento generalmente impredecible. Ahora, todos, desde agencias del sector público hasta grandes empresas de tecnología, están proponiendo nuevos puntos de referencia para probar la seguridad de estos modelos.

A finales del año pasado, la startup ScaleAI creó un laboratorio para evaluar la coherencia de los modelos con las directrices de seguridad. Este mes, el NIST y el Instituto de Seguridad de Inteligencia Artificial del Reino Unido lanzaron herramientas diseñadas para evaluar los riesgos de los modelos. Pero estas pruebas y métodos de detección de modelos pueden no ser suficientes.

El Instituto Ada Lovelace (ALI), una organización británica de investigación de inteligencia artificial sin fines de lucro, llevó a cabo un estudio en el que entrevistó a expertos de laboratorios académicos, la sociedad civil y modelos de fabricantes, y revisó investigaciones recientes sobre evaluación de seguridad de la IA. Los coautores descubrieron que, si bien las evaluaciones actuales pueden ser útiles, no son exhaustivas, se pueden engañar fácilmente y no necesariamente ilustran cómo funcionarán los modelos en escenarios del mundo real.

"Ya sean teléfonos inteligentes, medicamentos recetados o automóviles, todos queremos que los productos que utilizamos sean seguros y confiables; en estas áreas, los productos se someten a pruebas rigurosas para garantizar que sean seguros antes de su implementación", afirmó Elliot Jones, investigador principal de ALI y coautor del informe. "Nuestra investigación tiene como objetivo examinar las limitaciones de los métodos actuales de evaluación de la seguridad de la IA, evaluar cómo se utilizan actualmente las evaluaciones y explorar su uso como herramienta para los formuladores de políticas y reguladores".

Los coautores del estudio comenzaron examinando la literatura académica para comprender los peligros y riesgos que plantean los modelos actuales, así como el estado actual de las evaluaciones de modelos de IA existentes. Luego entrevistaron a 16 expertos, incluidos cuatro empleados de empresas de tecnología no identificadas que desarrollan sistemas de inteligencia artificial generativa.

El estudio encontró serios desacuerdos dentro de la industria de la IA sobre los mejores métodos y criterios de clasificación para evaluar modelos.

Algunas evaluaciones solo probaron qué tan bien se desempeñó el modelo en comparación con puntos de referencia en el laboratorio, sin probar el impacto que el modelo podría tener en los usuarios del mundo real. También hay evaluaciones que utilizan pruebas desarrolladas con fines de investigación en lugar de evaluar modelos de producción, pero los proveedores insisten en utilizar estos modelos en producción.

Los expertos citados en el estudio señalaron que es difícil inferir el desempeño de un modelo a partir de los resultados de las pruebas comparativas, y ni siquiera está claro si una prueba comparativa indica que un modelo posee habilidades específicas. Por ejemplo, un modelo puede obtener buenos resultados en un examen de la abogacía estatal, pero eso no significa que pueda resolver más acertijos legales abiertos.

Los expertos también señalan el problema de la contaminación de los datos, por la cual los resultados de las pruebas comparativas sobreestiman el rendimiento de un modelo si se entrena con los mismos datos que los datos de prueba. Los expertos dicen que en muchos casos las empresas eligen puntos de referencia no porque sean la mejor herramienta de evaluación, sino por conveniencia y facilidad de uso.

Mahi Hardalupas, investigador de ALI y coautor del estudio, dijo: "Es posible que los desarrolladores puedan manipular los puntos de referencia, quienes pueden entrenar modelos en los mismos conjuntos de datos utilizados para evaluar los modelos, equivalente a ver el documento de prueba antes del examen, o elegir estratégicamente qué método de evaluación usar. La versión del modelo de evaluación también es importante. Los pequeños cambios pueden conducir a cambios impredecibles en el comportamiento y pueden anular las características de seguridad integradas".

La investigación de ALI también descubrió el problema del "equipo rojo". El "equipo rojo" es la práctica de hacer que individuos o grupos "pirateen" un modelo para encontrar vulnerabilidades y fallas. Muchas empresas, incluidas las nuevas empresas de inteligencia artificial OpenAI y Anthropic, utilizan modelos de evaluación de "equipos rojos", pero existen pocos estándares aceptados para los "equipos rojos", lo que dificulta evaluar la efectividad de un esfuerzo específico.

Los expertos dijeron a los coautores del estudio que es difícil encontrar personas con las habilidades y experiencia necesarias para formar equipos rojos, y la naturaleza manual de los equipos rojos los hace costosos e ingratos, un obstáculo para las organizaciones más pequeñas que no tienen los recursos necesarios.

La presión para lanzar modelos más rápido y la renuencia a realizar pruebas potencialmente problemáticas antes del lanzamiento se encuentran entre las principales razones de la mala evaluación de la IA.

"Una persona con la que hablamos que trabajaba en una empresa que desarrolló el modelo subyacente sintió que había una mayor presión dentro de la empresa para lanzar modelos rápidamente, lo que hacía más difícil reinventar la rueda y realizar una evaluación seria", dijo Jones. "Los principales laboratorios de IA están lanzando modelos más rápido de lo que ellos o la sociedad pueden garantizar que sean seguros y confiables".

En la investigación de ALI, un encuestado describió la evaluación de modelos de seguridad como un problema "espinoso". Entonces, ¿qué esperanzas tiene la industria (y quienes la regulan) de encontrar una solución? El investigador Mahi Hardalupas cree que existe un camino a seguir, pero requiere una mayor participación de las agencias del sector público. "Los reguladores y los formuladores de políticas deben articular claramente lo que quieren de las evaluaciones. Al mismo tiempo, la comunidad de evaluación debe ser transparente sobre las limitaciones y el potencial actuales de las evaluaciones", dijo.

Hardalupas recomendó que los gobiernos permitan una mayor participación pública en el desarrollo de evaluaciones y tomen medidas para apoyar un "ecosistema" de pruebas de terceros, incluidos planes para garantizar el acceso regular a los modelos y conjuntos de datos necesarios.

Jones cree que puede ser necesario realizar evaluaciones "contextuales específicas" que vayan más allá de probar cómo responde el modelo a las indicaciones, sino que observen los tipos de usuarios que el modelo podría afectar (como personas de un origen, género o etnia particular) y las formas en que los ataques al modelo podrían socavar las salvaguardas.

"Esto requerirá inversión en la ciencia subyacente de las evaluaciones para desarrollar evaluaciones más sólidas y repetibles basadas en una comprensión de cómo funcionan los modelos de IA", añadió.

Pero nunca se puede garantizar que un modelo sea seguro. "Como otros han señalado, la 'seguridad' no es una propiedad del modelo", afirmó Hardalupas. "Para determinar si un modelo es 'seguro' es necesario comprender el contexto en el que se utilizará, a quién se lo venderá o a quién se lo adquirirá, y si las salvaguardas existentes son suficientes para mitigar esos riesgos. Una evaluación de un modelo básico puede servir como una función exploratoria para identificar riesgos potenciales, pero no garantiza que el modelo sea seguro, y mucho menos 'completamente seguro'. Muchos de nuestros entrevistados sintieron que las evaluaciones no pueden demostrar que un modelo sea seguro, sólo que no lo es". "