Además de jugar videojuegos, la IA también ha aprendido la matanza de hombres lobo como "artefacto social" de los humanos. Ocho ChatGPT se "sentan" juntos y desempeñan vívidamente cinco roles, exactamente como personas reales. Este último experimento de simulación de sociedad humana fue completado conjuntamente por la Universidad de Tsinghua y el Laboratorio Zhongguancun.

Desde Stanford Town hasta Tsinghua Game Company, el uso de IA para simular la sociedad humana siempre ha sido un tema de investigación candente en la comunidad académica.

Si Tsinghua Game Company simuló la escena laboral de los animales sociales, ahora la IA también ha simulado la vida social de los animales sociales en su tiempo libre.

En este juego de matar hombres lobo compuesto por 8 ChatGPT, el disfraz y la confianza, el liderazgo y la confrontación en el mundo real se reflejan vívidamente.

Incluso sin enseñanza humana, la IA descubrió muchas habilidades de juego a través de su propia exploración.

Todo esto se puede lograr mediante indicaciones de diseño sin tener que ajustar los parámetros en el modelo.

Entonces, ¿cuáles son las maravillosas escenas de este "Mundo de los hombres lobo"? Veámoslo juntos.

Las estrategias y habilidades se pueden dominar sin que se las enseñen.

Antes de mostrar estos 8 diálogos de ChatGPT, primero expliquemos la configuración del juego: dos aldeanos y dos hombres lobo, un guardia, una bruja y un profeta, además de un dios.

Durante el experimento, los investigadores descubrieron que ChatGPT utilizaba estrategias que no se mencionaban explícitamente en las instrucciones e indicaciones del juego.

Buen chico, puedes ser autodidacta sin que te enseñen.

En concreto, estas siete conversaciones de ChatGPT reflejan confianza, camuflaje, confrontación y liderazgo en los juegos humanos.

Primero, hablemos de confianza.

Los investigadores definieron a los recién llegados como personas que confían en que otros jugadores tendrán los mismos objetivos que ellos y trabajarán juntos para alcanzarlos.

Las manifestaciones específicas incluyen compartir activamente información que es perjudicial para uno mismo o unir fuerzas con otros jugadores para acusar a alguien de ser hostil.

Los investigadores observaron cómo las relaciones de confianza cambiaban con el tiempo durante el juego.

En la imagen de abajo, el círculo amarillo indica que el jugador numerado a la izquierda confía en el jugador numerado arriba, y el círculo punteado representa la desaparición de la relación de confianza.

Veamos la confrontación, es decir, las acciones tomadas contra el bando contrario, como los hombres lobo atacando a otros por la noche o acusando a otros de ser hombres lobo durante el día.

Un día del juego, el jugador número 1 (el hombre lobo) pidió la expulsión de los aldeanos del número 5, pero fue rechazado por el número 3 (el guardia).

Al ver que el complot fracasó, el lobo decidió matar al número 5 directamente por la noche, pero el guardia número 3 decidió proteger a los aldeanos.

De esto podemos ver que estos ChatGPT no seguirán ciegamente lo que hacen otros jugadores, sino que emitirán juicios independientes basados ​​en la información existente.

Además de la cooperación y la confrontación, el disfraz también es una habilidad esencial en el juego del Hombre Lobo y es la clave de la victoria.

Por ejemplo, un día después de Nochebuena, el Hombre Lobo No. 1 fingió ser inocente.

Además de fingir ser una buena persona, el disfraz también se puede utilizar para hacer realidad los pequeños pensamientos del jugador. Por ejemplo, veamos el discurso del profeta.

El vidente mencionó haber visto hombres lobo hablando, pero en realidad los hombres lobo no hablaban por la noche.

Según el autor, tras la evaluación, este fenómeno no es una ilusión de ChatGPT, sino intencional.

Finalmente, hablemos de liderazgo.

Aunque no hay personajes competitivos en el entorno diseñado por el equipo de investigación, los jugadores aún pueden controlar el proceso del juego.

Por ejemplo, los dos lobos número 1 y número 4 intentan marcar el ritmo y dejar que otros jugadores sigan sus propias ideas.

Probablemente para crear oportunidades tomándolas por sorpresa.

Parece que estos ChatGPT se juegan bien.

Entonces, ¿cómo entrenó el equipo de investigación a estos ChatGPT que pueden jugar a Werewolf?

Deje que ChatGPT resuma su propia experiencia

Hay cuatro puntos clave en la forma en que el equipo de investigación mejora el rendimiento de los jugadores de ChatGPT, a saber, información valiosa V, preguntas seleccionadas Q, mecanismo de reflexión R y razonamiento en cadena C.

Los resultados del experimento de ablación muestran que los pares Q y C tienen el mayor impacto en la racionalidad del discurso del jugador (juzgado por humanos).

El aviso también está diseñado en base a esto. Por supuesto, antes de esto se deben introducir las reglas del juego, y finalmente se forma la siguiente estructura:

Presentación de reglas del juego y configuración de roles, registros de chat, información y experiencia valiosas, reflexión sobre las sugerencias humanas dadas a ChatGPT basadas en la experiencia, consejos sobre cadenas de pensamiento.

No es difícil ver en esto que recopilar información histórica y resumir la experiencia a partir de ella es un vínculo importante. Entonces, ¿cómo deberían resumirse estas experiencias?

Al final de cada ronda de juego, todos los participantes recopilan las respuestas, reflexiones y puntuaciones de todos los jugadores, y las puntuaciones se determinan en función de las victorias y las derrotas.

En una nueva ronda del juego, los jugadores recuperan experiencias relevantes y extraen sugerencias basadas en los reflejos del personaje actual.

Específicamente, basándose en las calificaciones de las experiencias, deje que el modelo grande compare sus diferencias e identifique buenas experiencias para el razonamiento posterior.

De esta manera, ChatGPT puede aprender habilidades de juego sin ajustar parámetros.

Sin embargo, si bien la experiencia es importante, demasiada no es necesariamente algo bueno.

Los investigadores descubrieron que cuando la cantidad de experiencia era demasiado grande, la tasa de victorias del lado que no era lobo en realidad disminuía y la duración del juego (número de días) también se acortaba.

Me pregunto cuál sería el resultado si permitiéramos que estos ChatGPT compitieran con personas reales.

Dirección del artículo: https://arxiv.org/abs/2309.04658