Un estudio encuentra que un algoritmo de IA está sesgado contra el amarillo skin

Después de informes de 2018 de que los principales algoritmos de análisis facial eran menos precisos en personas con tonos de piel más oscuros, empresas como Google y Meta utilizaron mediciones del tono de la piel para probar la eficacia de su software de inteligencia artificial. Una nueva investigación de Sony sugiere que estas pruebas ignoran un aspecto importante de la diversidad del color de la piel humana.

Los investigadores de Sony afirman que los métodos de medición del color de la piel utilizados actualmente sólo utilizan una escala móvil del más claro al más oscuro o del blanco al negro para representar el color de la piel, ignorando así el impacto de los tonos amarillos y rojos en la gama de colores de la piel humana. Descubrieron que los sistemas de inteligencia artificial generativa, los algoritmos de extracción de imágenes y las herramientas de análisis de fotografías tenían problemas especialmente con la piel más amarilla. La misma debilidad puede aplicarse a una variedad de tecnologías cuya precisión se ha demostrado que se ve afectada por el tono de la piel, como el software de inteligencia artificial para reconocimiento facial, seguimiento corporal y detección de deepfake, o dispositivos como monitores de frecuencia cardíaca y detectores de movimiento.

Alice Xiang, científica investigadora principal y directora global de ética de la IA en Sony, dijo: "Si los productos se evalúan simplemente de esta manera tan singular, hay muchos sesgos que no se detectan ni se mitigan. Nuestra esperanza es que el trabajo que estamos haciendo aquí pueda ayudar a reemplazar algunas de las escalas de tonos de piel existentes que en realidad solo se centran en colores claros versus oscuros".

Pero no todo el mundo está convencido de que las opciones existentes sean insuficientes para calificar los sistemas de IA. Ellis Monk, sociólogo de la Universidad de Harvard, dijo que la paleta de 10 colores de piel que lanzó con Google el año pasado ofrece opciones de claro a oscuro, pero no es unidimensional. "Tengo que admitir que estoy un poco confundido por la sugerencia de que los matices y tintes han sido ignorados en investigaciones anteriores sobre este tema", dijo Monk. "El esfuerzo de investigación se dedicó a decidir qué tonos de piel priorizar en la escala y en qué puntos. Eligió los 10 tonos de piel en su escala basándose en su propia investigación sobre el colorismo y después de consultar con otros expertos y personas de comunidades subrepresentadas".

X. Eyeé, director ejecutivo de la firma consultora de ética de IA Malo Santo y fundador del equipo de investigación del color de piel de Google, dijo que la escala Munch nunca tuvo la intención de ser una solución final y calificó el trabajo de Sony como un avance importante. Pero Eyeé también advierte que la posición de la cámara puede afectar los valores de color CIELAB en las imágenes, uno de varios problemas que hacen del estándar un punto de referencia potencialmente poco confiable. "Antes de que podamos aplicar mediciones del tono de la piel a algoritmos de IA del mundo real, como filtros de cámara y videoconferencias, es necesario trabajar más para garantizar la coherencia de las mediciones", afirmó Eyeé.

El debate sobre las escalas no es sólo académico. Encontrar una medida adecuada de lo que los investigadores de IA llaman "imparcialidad" es una máxima prioridad para la industria tecnológica, mientras los legisladores en países como la Unión Europea y Estados Unidos debaten exigir a las empresas que auditen sus sistemas de IA y señalen riesgos y fallas. Los investigadores de Sony dijeron que los métodos de evaluación débiles podrían socavar algunos de los beneficios prácticos de las regulaciones.

En cuanto al color de la piel, Xiang dijo que se justifican esfuerzos para desarrollar más mejoras: "Necesitamos seguir intentando lograr avances. Diferentes medidas pueden resultar útiles dependiendo de la situación. Me complace que haya un interés creciente en esta área después de haber sido ignorada durante tanto tiempo".

El portavoz de Google, Brian Gabriel, dijo que la compañía dio la bienvenida al nuevo estudio y lo estaba revisando.

El color de la piel humana proviene de la interacción de la luz con proteínas, células sanguíneas y pigmentos como la melanina. La forma estándar de probar si un algoritmo está sesgado por el tono de piel es examinar cómo funciona en diferentes tonos de piel, con seis opciones, del más claro al más oscuro, conocida como escala de Fitzpatrick. Esta escala fue desarrollada originalmente por dermatólogos para evaluar la respuesta de la piel a los rayos UV. El año pasado, investigadores de inteligencia artificial en el mundo de la tecnología elogiaron el lanzamiento de la Escala Munch por parte de Google, diciendo que era más inclusivo.

CIELAB, el estándar internacional de color para la edición y fabricación de fotografías, proporciona una forma más fiel de representar el amplio espectro de la piel, dijeron investigadores de Sony en un estudio presentado esta semana en la Conferencia Internacional sobre Visión por Computadora en París. Cuando aplicaron los estándares CIELAB para analizar fotografías de diferentes personas, descubrieron que su piel difería no sólo en el tono (la profundidad del color) sino también en el tono (es decir, la gradación del color).

La incapacidad de la escala de tonos de piel para capturar correctamente los tonos rojos y amarillos de la piel humana parece haber contribuido a que algunos sesgos no se detecten en el algoritmo de imágenes. Los investigadores de Sony probaron sistemas de inteligencia artificial de código abierto, incluido un capturador de imágenes desarrollado por Twitter y un par de algoritmos de generación de imágenes, y descubrieron que los algoritmos favorecían la piel roja, lo que significa que un gran número de personas con piel amarillenta estaban subrepresentadas en las imágenes finales generadas por los algoritmos. Esto tiene el potencial de poner en desventaja a diversas poblaciones, incluidas Asia Oriental, Asia Meridional, América Latina y Oriente Medio.

Los investigadores de Sony han ideado una nueva forma de representar el tono de la piel para capturar una diversidad que antes se pasaba por alto. Su sistema utiliza dos coordenadas en lugar de un número para describir los tonos de piel en imágenes. Especifica dónde los tonos de piel caen de claro a oscuro y de amarillo a rojo, lo que la industria cosmética a veces llama matices cálidos a fríos.

El nuevo método funciona aislando todos los píxeles en una imagen que muestra la piel, convirtiendo el valor de color RGB de cada píxel en un código CIELAB y luego calculando el tono promedio y el tono de la población de píxeles de la piel. Un ejemplo del estudio mostró aparentes fotos de perfil de la ex estrella de la NFL Terrell Owens y la fallecida actriz Eva Garbo con el mismo tono de piel pero diferentes tonos, con la imagen de Owens apareciendo más rojiza y la imagen de Garbo más amarillenta.

Las escalas de color que no capturan correctamente los tonos rojos y amarillos de la piel humana ayudan a que los sesgos en los algoritmos de imágenes pasen desapercibidos.

Cuando el equipo de Sony aplicó su enfoque a los sistemas de datos e inteligencia artificial en línea, descubrió problemas importantes. Los investigadores descubrieron que CelebAMask-HQ, un popular conjunto de datos de rostros de celebridades utilizado para entrenar el reconocimiento facial y otros programas de visión por computadora, tenía un 82% de imágenes sesgadas hacia los tonos de piel rojos, mientras que otro conjunto de datos desarrollado por NVIDIA, FFHQ, tenía un 66% de sesgo hacia el rojo. Dos modelos generativos de IA entrenados en FFHQ reprodujeron este sesgo: aproximadamente cuatro de cada cinco imágenes que generaron estaban sesgados hacia los tonos rojos.

El problema no termina ahí. Cuando se pidió a los programas de inteligencia artificial ArcFace, FaceNet y Dlib que identificaran si dos retratos correspondían a la misma persona, obtuvieron mejores resultados en pieles rojas, según la investigación de Sony. Davis King, el desarrollador de Dlib, dijo que no le sorprendió el sesgo porque el modelo se entrenó principalmente con fotografías de celebridades estadounidenses.

Las herramientas de inteligencia artificial en la nube que ofrecen Microsoft Azure y Amazon Web Services para detectar sonrisas también funcionan mejor en tonos más rojos. Sarah Bird, que dirige la ingeniería de inteligencia artificial en Microsoft, dijo que la compañía ha estado aumentando sus inversiones en equidad y transparencia. El portavoz de Amazon, Patrick Neighorn, dijo: "Damos la bienvenida a la colaboración con la comunidad de investigación y estamos revisando cuidadosamente este estudio". NVIDIA declinó hacer comentarios.

Como persona de piel amarilla, Xiang está muy preocupado por revelar las limitaciones de los métodos de prueba de inteligencia artificial actuales. Sony utilizará el nuevo sistema para analizar sus propios modelos de visión por computadora centrados en el ser humano a medida que se sometan a revisión, dijo, sin especificar cuáles. "Todos tenemos diferentes tonos de piel. Esto no debería utilizarse para discriminarnos", afirmó.

Hay otra ventaja potencial en el enfoque de Sony. Mediciones como Monkscale de Google requieren que los humanos clasifiquen dónde se encuentra la piel de un individuo específico en el espectro. Los desarrolladores de IA dicen que es una tarea variable, ya que las percepciones de las personas pueden verse influenciadas por su ubicación o las percepciones de su propia raza e identidad.

El enfoque de Sony está totalmente automatizado y no requiere juicio humano. Pero Monk de Harvard se pregunta si eso es mejor. Los métodos de medición objetivos como el de Sony pueden acabar simplificando o ignorando otras complejidades de la diversidad humana. "Si nuestro objetivo es eliminar el sesgo, y el sesgo es un fenómeno social, entonces no estoy tan seguro de que debamos eliminar del análisis cómo los humanos ven socialmente el color de la piel", dijo.