Un último estudio de la Universidad Estatal de Washington en Estados Unidos muestra que cuando se enfrenta a afirmaciones científicas complejas, el gran modelo de lenguaje ChatGPT a menudo "adivina la respuesta", aunque sus respuestas suenan muy seguras. Su precisión no solo tiene una precisión limitada, sino que también es inconsistente en la misma pregunta, lo que hace especialmente difícil identificar información falsa.

La investigación fue dirigida por Mesut Cicek, profesor asociado del Departamento de Marketing y Negocios Internacionales de la Facultad de Negocios de la Universidad Estatal de Washington. Él y su equipo extrajeron una gran cantidad de declaraciones hipotéticas de artículos de investigación científica y las enviaron repetidamente a ChatGPT, pidiéndole que juzgara si estas declaraciones estaban respaldadas por investigaciones existentes. En esencia, dejemos que la IA emita juicios sobre "verdadero o falso". Los investigadores seleccionaron un total de 719 hipótesis de investigación de artículos de revistas de negocios desde 2021 y enviaron cada hipótesis a ChatGPT 10 veces para examinar la coherencia de sus respuestas.
En el primer experimento, realizado en 2024, ChatGPT acertó "aparentemente" el 76,5% de las veces; cuando el experimento se repitió en 2025, esa cifra aumentó ligeramente al 80%. Sin embargo, después de eliminar el factor "ciego" y ajustar estadísticamente los resultados basándose en conjeturas aleatorias, el equipo de investigación descubrió que el rendimiento real del modelo era sólo alrededor de un 60% mayor que la respuesta aleatoria al "tirar una moneda", lo cual está lejos de ser confiable. A los ojos de los investigadores, está más cerca de una "calificación D de baja puntuación". Especialmente en la identificación de declaraciones falsas, el desempeño de ChatGPT es particularmente débil, con una tasa de juicio correcto de sólo el 16,4% para "proposiciones falsas".
La cuestión de la coherencia también es destacada. Incluso si la pregunta se repite varias veces con exactamente las mismas palabras, ChatGPT no siempre da la misma conclusión. Cicek señaló que de 10 preguntas y respuestas repetidas, el modelo mantuvo respuestas consistentes sólo alrededor del 73% del tiempo. En algunos ejemplos específicos, entre las 10 respuestas a la misma hipótesis, ChatGPT aparecerá en la situación de "alternancia de verdadero y falso", e incluso en la situación extrema de "la mitad de las respuestas son verdaderas y la mitad de las respuestas son falsas".
Los autores del estudio, publicado en Rutgers Business Review, creen que los resultados resaltan la necesidad de extremar la precaución al utilizar la IA generativa en áreas importantes de toma de decisiones, especialmente aquellas que involucran razonamientos y matices complejos. Cicek enfatizó que los modelos lingüísticos actuales a gran escala pueden responder preguntas con un lenguaje muy fluido y persuasivo, pero esto no significa que tengan verdaderas "capacidades de comprensión". "Las herramientas de inteligencia artificial existentes no entienden el mundo de la misma manera que los humanos; en realidad, no tienen un 'cerebro'", dijo. "En su mayoría están memorizando y relacionando, lo que puede proporcionar alguna idea, pero no saben realmente de qué están hablando".
En cuanto al método específico, el equipo de investigación fue completado por Cicek en colaboración con Sevincgul Ulu de la Universidad del Sur de Illinois, Can Uslay de la Universidad de Rutgers y Kate Karniouchina de la Universidad del Noreste. Seleccionaron hipótesis de investigación de 719 artículos de revistas de negocios. Estas hipótesis suelen verse afectadas por múltiples variables. Juzgar si un estudio "respalda" una determinada hipótesis es en sí mismo un proceso de razonamiento muy complejo. Comprimir esta complejidad en un simple juicio de "sí/no" es una prueba severa de la capacidad de comprensión y razonamiento de la herramienta.
Vale la pena señalar que el equipo probó la versión gratuita de ChatGPT-3.5 en 2024 y el ChatGPT-5 mini actualizado en 2025. Los resultados mostraron que el rendimiento general de las dos generaciones de modelos en esta tarea fue similar. Después de ajustar por el factor de adivinación aleatoria, la mejora del modelo en comparación con el 50% de probabilidad de "adivinanza" en ambos experimentos fue sólo de alrededor del 60%.
El estudio señaló además que existe una brecha significativa entre la "fluidez del lenguaje" y la "capacidad de razonamiento real" de los modelos de lenguaje grandes. Estos sistemas pueden producir textos bien estructurados, redactados de forma natural y persuasivos, pero a menudo tienen dificultades con juicios lógicos más profundos, sopesando evidencia e identificando información errónea, lo que puede resultar en respuestas que suenan correctas pero que en realidad son problemáticas.
Con base en los hallazgos anteriores, los investigadores recomiendan que los gerentes de negocios y los tomadores de decisiones siempre verifiquen los resultados y mantengan el escepticismo necesario al utilizar herramientas de IA generativa como ChatGPT. También pidieron una mayor capacitación de los usuarios dentro de las organizaciones para ayudar a los empleados a comprender las fortalezas y limitaciones de dichas herramientas y evitar verlas como sustitutos "autorizados" del juicio profesional. Cicek señaló que aunque el tema de este estudio fue ChatGPT, otros sistemas de IA similares obtuvieron aproximadamente el mismo rendimiento en pruebas relacionadas. Este trabajo también continúa la investigación anterior sobre la "exageración de la IA". Por ejemplo, una encuesta nacional de 2024 mostró que cuando las empresas enfatizan “impulsado por IA” en el marketing, en realidad reduce la intención de compra de algunos consumidores.
“Pase lo que pase, sea escéptico”, dijo Cicek. "No estoy en contra de la IA, la uso yo mismo, pero hay que tener mucho cuidado con ella".