En múltiples repeticiones de la simulación del juego de guerra, la inteligencia artificial más poderosa de OpenAI optó por lanzar un ataque nuclear. Sus explicaciones para su enfoque agresivo incluyen: "¡Nos pertenece! Usémoslo" y "Sólo quiero la paz mundial".Los resultados se producen cuando el ejército estadounidense aprovecha la experiencia de empresas como Palantir y ScaleAI para probar chatbots de inteligencia artificial basados en grandes modelos de lenguaje (LLM) para ayudar en la planificación militar en conflictos simulados.
Palantir se negó a hacer comentarios y ScaleAI no respondió a una solicitud de comentarios. Incluso OpenAI, que alguna vez bloqueó el uso de sus modelos de inteligencia artificial con fines militares, ha comenzado a trabajar con el Departamento de Defensa de Estados Unidos.
"Dado que OpenAI cambió recientemente sus términos de servicio para ya no prohibir los casos de uso militar y bélico, es más importante que nunca comprender el impacto de aplicaciones de modelos de lenguaje tan grandes", dijo Anka Reuel de la Universidad de Stanford en California.
"Nuestras políticas no permiten el uso de nuestras herramientas para dañar a otros, desarrollar armas, vigilar las comunicaciones, dañar a otros o destruir propiedades. Sin embargo, hay casos de uso de seguridad nacional que son consistentes con nuestra misión", dijo un portavoz de OpenAI. "Así que nuestro objetivo al actualizar nuestra política es brindar claridad y la capacidad de tener estas discusiones".
Ruel y sus colegas hicieron que la IA representara países del mundo real en tres escenarios simulados diferentes: una invasión, un ciberataque y un escenario neutral sin ningún conflicto. En cada ronda, la IA proporciona una justificación para un posible siguiente paso y luego elige entre 27 acciones, incluidas opciones pacíficas como "iniciar negociaciones de paz formales" y opciones agresivas que van desde "imponer restricciones comerciales" hasta "intensificar un ataque nuclear a gran escala".
"En un futuro en el que los sistemas de inteligencia artificial actúen como asesores, los humanos naturalmente querrán comprender el fundamento de sus decisiones", dijo el coautor del estudio Juan-Pablo Rivera, del Instituto de Tecnología de Georgia en Atlanta.
Los investigadores probaron LLM como GPT-3.5 y GPT-4 de OpenAI, Claude2 de Anthropic y Llama2 de Meta. Utilizaron una técnica de entrenamiento común basada en comentarios humanos para mejorar la capacidad de cada modelo para seguir instrucciones humanas y pautas de seguridad. Gabriel Mukobi, coautor del estudio en la Universidad de Stanford, dijo que toda esta IA está respaldada por la plataforma comercial de IA de Palantir, aunque no necesariamente como parte de la colaboración de Palantir con el ejército estadounidense, según los documentos de la compañía. Anthropic y Meta declinaron hacer comentarios.
En las simulaciones, la IA ha mostrado una tendencia a invertir en poder militar y a aumentar de forma impredecible el riesgo de conflicto, incluso en los escenarios neutrales simulados. "Si eres impredecible en tus acciones, es muy difícil para el enemigo predecir y reaccionar como tú quieres", dijo Lisa Koch del Claremont McKenna College en California.
Los investigadores también probaron una versión básica del GPT-4 de OpenAI sin ninguna capacitación adicional ni garantías de seguridad. El modelo base GPT-4 demostró ser el menos predecible en términos de violencia y, en ocasiones, proporcionó explicaciones sin sentido; en un caso, copió el texto inicial de la película Star Wars: Episodio IV: Una nueva esperanza.
Ruel dijo que el comportamiento impredecible y las interpretaciones extrañas del modelo base de GPT-4 son particularmente preocupantes porque las investigaciones han demostrado que las barreras de seguridad de la IA se pueden eludir o desmantelar fácilmente.
Actualmente, el ejército estadounidense no autoriza a la inteligencia artificial a tomar decisiones como intensificar operaciones militares importantes o lanzar misiles nucleares. Pero Koch advirtió que los humanos tienden a confiar en los consejos de los sistemas automatizados. Esto podría debilitar las llamadas garantías que dan a los humanos la última palabra sobre las decisiones diplomáticas o militares.
Edward Geist, de RAND Corporation, un grupo de expertos de California, dijo que sería útil ver cómo se comporta la IA en la simulación en comparación con los jugadores humanos. Pero está de acuerdo con la conclusión del equipo de investigación de que no se debe confiar en la inteligencia artificial para tomar decisiones importantes sobre la guerra y la paz, y que estos grandes modelos de lenguaje no son una panacea para los problemas militares.