Nueva investigación: los chatbots de inteligencia artificial son más creativos que los humanos promedio

Un estudio reciente publicado en la revista Scientific Reports sugiere que los chatbots de inteligencia artificial de modelo de lenguaje grande (LLM) pueden superar a los humanos comunes en tareas creativas, como la lluvia de ideas sobre usos alternativos para elementos comunes, un reflejo del pensamiento divergente. Sin embargo, las personas con la puntuación más alta en estas tareas aún superaron los resultados de los chatbots con mejor rendimiento.

El pensamiento divergente es un proceso de pensamiento a menudo asociado con la creatividad que enfatiza la generación de muchas ideas o soluciones diferentes para una tarea específica.

Por lo general, se evalúa a través de la Tarea de uso alternativo (AUT), en la que se pide a los participantes que propongan tantos usos alternativos como sea posible para objetos cotidianos en un corto período de tiempo. Las respuestas se dividieron en cuatro categorías diferentes: fluidez, flexibilidad, originalidad y elaboración.

Mika Koivisto y Simone Grassini compararon las respuestas de 256 participantes humanos con las de tres chatbots de IA (ChatGPT3, ChatGPT4 y Copy.Ai) y sus respuestas AUT a cuatro objetos: una cuerda, una caja, un lápiz y una vela. Los autores evaluaron la originalidad de las respuestas calificando la distancia semántica (qué tan estrechamente se relaciona la respuesta con el uso original del objeto) y la creatividad.

La distancia semántica se cuantifica utilizando métodos computacionales en una escala de 0 a 2, mientras que los evaluadores humanos, ciegos al iniciador de la respuesta, califican subjetivamente la creatividad en una escala de 1 a 5. En promedio, los chatbots generaron respuestas que obtuvieron puntuaciones significativamente más altas que las respuestas humanas en cuanto a distancia semántica (0,95 frente a 0,91) y creatividad (2,91 frente a 2,47).

Las respuestas humanas tuvieron un rango más amplio en ambas métricas: las puntuaciones más bajas fueron mucho más bajas que las respuestas de la IA, pero las puntuaciones más altas fueron generalmente más altas. La mejor respuesta del ser humano superó la mejor respuesta de cada chatbot en siete de las ocho categorías de calificación.

Estos hallazgos sugieren que los chatbots de IA ahora pueden generar ideas al menos tan bien como los seres humanos. Sin embargo, los autores señalan que sólo consideraron el desempeño en una única tarea relevante para la evaluación de la creatividad. Los autores sugieren que futuras investigaciones podrían explorar cómo integrar la inteligencia artificial en el proceso creativo para mejorar el desempeño humano.