¿Surgirá repentinamente la superinteligencia de inteligencia artificial (IA), o los científicos predecirán su aparición y tendrán la oportunidad de advertir al mundo? Este problema ha recibido mucha atención recientemente con el surgimiento de grandes modelos de lenguaje (como ChatGPT); estas inteligencias artificiales han adquirido nuevas capacidades significativas a medida que crecen en tamaño.Alguien señaló el fenómeno de la "emergencia", un fenómeno en el que los llamados modelos de inteligencia artificial adquieren inteligencia rápidamente de formas increíbles. Pero un estudio reciente llama a estas situaciones "fantasmas" (artefactos que surgen durante las pruebas del sistema) y sugiere que la creación de capacidades de innovación es en realidad un proceso gradual.
"Creo que hicieron un buen trabajo al decir: 'No pasó nada mágico'", dijo Deborah Raji, científica computacional de la Fundación Mozilla que estudia la auditoría de la inteligencia artificial. "Esa es una crítica buena, sólida y basada en mediciones".
Este trabajo se presentó en la conferencia de aprendizaje automático NeurIPS en Nueva Orleans el pasado mes de diciembre.
Cuanto más grande es mejor
Los modelos de lenguaje grandes generalmente se entrenan con cantidades masivas de texto u otra información para generar respuestas realistas al predecir lo que sucederá a continuación. Incluso sin una formación específica, pueden traducir idiomas, resolver problemas matemáticos, escribir poesía o calcular códigos. Cuanto más grande sea el modelo (algunos tienen más de cien mil millones de parámetros ajustables), mejor será su rendimiento. Algunos investigadores sospechan que estas herramientas pueden eventualmente conducir a una inteligencia artificial general (AGI) que puede igualar o incluso superar el desempeño humano en la mayoría de las tareas.
El nuevo estudio pone a prueba la afirmación de emergencia de varias maneras. Primero, los científicos compararon las capacidades de los modelos OpenAIGPT-3 de cuatro escalas en sumas de cuatro dígitos. En términos de precisión absoluta, la diferencia de rendimiento entre el tercer y cuarto modelo más grande oscila entre cerca del 0% y cerca del 100%. Pero cuando se analiza el número de respuestas pronosticadas correctamente, la diferencia en los niveles de desempeño es menos extrema. Los investigadores también descubrieron que darle al modelo muchas preguntas de prueba también aplanaba la curva, en cuyo caso el modelo más pequeño a veces respondía correctamente.
Luego, los investigadores examinaron el rendimiento del modelo de lenguaje LaMDA de Google en una serie de tareas. Mostró un fuerte aumento en la inteligencia a la hora de detectar la ironía o traducir refranes, que a menudo son preguntas de opción múltiple con respuestas correctas o incorrectas discontinuas. Pero cuando los investigadores investigaron la probabilidad (una métrica continua) que el modelo asignaba a cada respuesta, los signos de aparición desaparecieron.
Finalmente, los investigadores investigaron la visión por computadora, un campo del que poco se habla de emergencia. Entrenaron el modelo para comprimir y luego reconstruir las imágenes. Pero siempre que se establezcan umbrales estrictos de corrección, pueden inducir un surgimiento significativo. "La forma en que diseñaron la encuesta fue muy creativa", dijo Yejin Choi, científico informático de la Universidad de Washington que estudia la inteligencia artificial y el sentido común.
Aún no descartado
El coautor del estudio, Sanmi Koyejo, científico informático de la Universidad de Stanford, dijo que no es absurdo que la gente piense en la emergencia porque algunos sistemas exhiben "cambios de fase" inesperados. También señaló que este estudio no puede descartar por completo la posibilidad de que esto suceda con grandes modelos de lenguaje (y mucho menos con sistemas futuros), pero agregó que "la investigación científica hasta la fecha sugiere firmemente que la mayoría de los aspectos de los modelos de lenguaje son realmente predecibles".
A Raji le alegra ver que el mundo académico se centra más en la evaluación comparativa que en el desarrollo de arquitecturas de redes neuronales. Quiere que los investigadores vayan un paso más allá y se pregunten cómo se relacionan estas tareas con las aplicaciones del mundo real. Por ejemplo, ¿un buen resultado en el LSAT (Prueba de admisión a la facultad de derecho) como el GPT-4 significa que el modelo también puede realizar trabajo asistente legal?
Este trabajo también tiene implicaciones para la seguridad y las políticas de IA. "El grupo de AGI ha estado promocionando la narrativa de la capacidad de emergencia", dijo Raji. Los temores infundados pueden conducir a regulaciones asfixiantes o desviar la atención de riesgos más apremiantes. "Los modelos están mejorando y son útiles", afirmó. "Pero todavía están lejos de tomar conciencia".