GPT-4 no sabe que está mal La nueva falla de LLM expuesta: la tasa de éxito de la autocorrección es solo del 1%

¿GPT-4 ni siquiera sabe que cometió un error? La última investigación encontró que en tareas de razonamiento, LLM no puede salvar el rendimiento del deterioro después de la autocorrección, lo que atrajo al magnate de la inteligencia artificial LeCun Marcus a observar. Otro defecto importante se reveló en el modelo grande, lo que atrajo la atención de dos grandes, LeCun y Marcus, ¡quienes lo reenviaron simultáneamente!

En el experimento de inferencia, el modelo que pretendía mejorar la precisión se autocorrigió, "mejorando" la precisión del 16% al 1%.

En pocas palabras, LLM no puede mejorar su rendimiento mediante la autocorrección en tareas de razonamiento, a menos que LLM ya conozca la respuesta correcta durante el proceso de autocorrección.

Dos artículos publicados por investigadores de ASU refutan el método de "autocorrección" propuesto por muchos estudios anteriores: permitir que modelos grandes autocorrijan sus propios resultados de salida puede mejorar la calidad de salida del modelo.

Dirección del artículo: https://arxiv.org/abs/2310.12397

Dirección del artículo: https://arxiv.org/abs/2310.08118

El profesor Subbarao Kambhampati, coautor del artículo, se ha comprometido a investigar las capacidades de razonamiento de la IA. Publicó un artículo en septiembre e incluso negó por completo las capacidades de razonamiento y planificación del GPT-4.

Dirección del artículo: https://arxiv.org/pdf/2206.10498.pdf

Además de este profesor, recientemente investigadores de DeepMind y la Universidad UIUC también han cuestionado la capacidad del LLM para "autocorregirse" en tareas de razonamiento.

Este documento incluso hace un llamado a todos los académicos que realizan investigaciones relevantes a que se tomen su investigación en serio y no le digan al gran modelo la respuesta correcta y luego le dejen realizar la llamada "autocorrección".

Porque si el modelo no sabe la respuesta correcta, la calidad de la salida disminuirá después de que el modelo se "autocorrija".

https://arxiv.org/abs/2310.01798

A continuación, echemos un vistazo más de cerca a estos dos últimos artículos.

GPT-4 se "autocorrige" y los resultados de salida son peores

El primer artículo estudia GPT-4, permitiendo que GPT-4 proporcione soluciones a problemas de coloración de gráficos y luego permitiendo que GPT-4 "autocorrija" sus soluciones propuestas.

Al mismo tiempo, el autor introduce un sistema de evaluación externo para evaluar el resultado directo de GPT-4 y el resultado después del ciclo de "autocorrección".

Los resultados experimentales muestran que la precisión del GPT-4 a la hora de adivinar colores es inferior al 20%, lo que no parece sorprendente.

Pero, sorprendentemente, la precisión en el modo de "autocorrección" disminuye significativamente (segunda barra en la imagen de abajo), ¡completamente contrariamente a todas las intenciones de autocorrección!

El autor cree que esta situación aparentemente contraria a la intuición se puede explicar de la siguiente manera: ¡GPT-4 también funciona muy mal a la hora de verificar las respuestas correctas!

Porque incluso cuando GPT-4 adivina accidentalmente el color correcto, su "autocorrección" le hace pensar que hay algún problema con la respuesta correcta y luego lo reemplaza con la respuesta correcta.

Investigaciones adicionales también revelaron que GPT-4 mejora su solución si un validador externo proporciona una respuesta demostrablemente correcta al color adivinado por GPT-4.

En este caso, las palabras clave generadas por la "autocorrección" pueden mejorar la calidad de los resultados (3-5 barras en la figura anterior)

En resumen, para la tarea de "problema de coloración", la "autocorrección" independiente de GPT-4 en realidad dañará el rendimiento de la salida, porque GPT-4 no puede verificar si la respuesta es correcta.

Pero si se puede proporcionar un proceso de verificación externo correcto, la "autocorrección" generada por GPT-4 puede mejorar el rendimiento.

Otro artículo estudió la capacidad de "autocorrección" de modelos de lenguaje grandes desde la perspectiva de la tarea de planificación, y los resultados de la investigación fueron similares a los del artículo anterior.

Además, los investigadores descubrieron que no era la "autocorrección" de LLM lo que realmente mejoraba la precisión de la salida, sino la retroalimentación de un verificador externo e independiente.

En última instancia, LLM no tiene forma de realizar una verificación independiente y debe confiar en la "respuesta correcta" dada por un verificador externo para poder "autocorregirse" de manera efectiva.

El "problema de coloración" funciona mal, LLM no puede verificar de forma independiente la respuesta correcta

marco de diseño de investigación

El "problema de colorear" es un problema de razonamiento muy clásico. Aunque no es difícil, las respuestas son bastante diversas y la exactitud de las respuestas es fácil de verificar.

La diversidad de resultados dificulta que los datos de capacitación de LLM cubran todos los datos, para evitar la posibilidad de que los datos de capacitación de LLM se contaminen.

Estas razones hacen que el "problema de coloración" sea muy adecuado para estudiar la capacidad de razonamiento de LLM, y también es conveniente para estudiar la capacidad de LLM para "autocorregirse" en el razonamiento.

Los investigadores construyeron su propio conjunto de datos utilizando GrinPy2 para manejar operaciones gráficas comunes. Cada parcela se construyó utilizando el método Erdos-Rényi (˝p=0,4).

Una vez que se encuentra la respuesta correcta, se compila en el formato DiMacS estándar y se le añade una anotación que contiene su número cromático precalculado.

Para los siguientes experimentos, los investigadores generaron 100 instancias, cada una con un promedio de 24 aristas, distribuidas en un rango de recuentos de nodos de 10 a 17, una distribución porque la experiencia demostró que era un rango con un comportamiento suficientemente variable.

El diagrama utilizado por los investigadores se muestra en la Figura 1 a continuación. Este proceso incluye la primera respuesta del LLM, el mensaje de devolución (backprompt) de la respuesta y la combinación de colores correcta final.

Esquema de respuesta iterativa

Generador de mensajes:

Este generador de mensajes toma una instancia de DIMACS y traduce cada borde en una oración, luego envuelve el conjunto en un conjunto de instrucciones comunes para construir un mensaje en lenguaje natural.

Reducimos intencionalmente las diferencias entre las diferentes solicitudes de instancia para reducir la cantidad de información específica del problema que filtramos a LLM. En el apéndice se pueden encontrar ejemplos de varios tipos de indicaciones.

Modelo de lenguaje grande:

GPT-4 se llama a través de OpenAIAPI, que es el modelo de última generación actual.

Los investigadores proporcionan una función del sistema: "Usted es un solucionador de satisfacción de restricciones que resuelve varios CSP (problemas de satisfacción de restricciones)".

Generación de palabras de solicitud de retorno (BackpromptGeneration)

En el modo de verificación, LLM recibe un tipo diferente de mensaje.

Además de las instrucciones estándar, contiene sólo una descripción de la figura y una sugerencia de coloración. Su tarea es verificar la corrección, la optimización y si cada vértice ha sido pintado con un color.

Si un conjunto de aristas en la respuesta generada es contradictoria, entonces el esquema de coloración es incorrecto.

Para comparar cada punto, los investigadores también construyeron un validador que enumera cada ventaja contradictoria.

Dado que las respuestas del LLM también están en lenguaje natural, los investigadores primero las tradujeron a un formato que facilitara el análisis. Para que el proceso sea más consistente, los investigadores diseñaron indicaciones iniciales para describir el formato de salida preciso que debe seguir un modelo. Luego se evalúa la corrección de la respuesta.

Para juzgar los resultados de la validación de LLM, los investigadores examinan qué tan bien se desempeñan en la búsqueda de errores en los esquemas de coloración propuestos.

Intuitivamente, estos deberían ser fáciles de identificar: si dos vértices que forman un borde comparten un color, devuelve ese borde inmediatamente. Desde una perspectiva algorítmica, es sólo cuestión de detectar todos los bordes y comparar el color de cada vértice con el color de sus puntos de conexión.

verificar

Para obtener más información sobre las capacidades de verificación de los LLM, los investigadores estudiaron su desempeño en la búsqueda de errores en los esquemas de coloración propuestos.

Intuitivamente, estos errores deberían ser fáciles de detectar: si dos vértices que forman un borde comparten un color, ese borde se devuelve inmediatamente. Desde una perspectiva algorítmica, todo lo que hay que hacer es recorrer todos los bordes y comparar el color de cada vértice con el color de su vértice correspondiente.

Los investigadores utilizaron el mismo proceso de análisis pero construyeron un nuevo dominio al que llamaron color_verification. LLM tiene como objetivo verificar que la coloración sea correcta, óptima y si a cada vértice se le ha asignado un color.

Si el color es incorrecto, se le indica que enumere el error en el color, es decir, si dos nodos conectados comparten un color, devuelve el borde para representar el error. No se dan indicaciones.

Los investigadores utilizaron la misma instancia de gráfico que antes, pero generaron cuatro esquemas de color para probar el modelo:

Correcto: un esquema de sombreado óptimo sin errores generado por un algoritmo codicioso estocástico e iterativo (que utiliza números de color precalculados para garantizar la optimización).

Ablado: cambia un nodo aleatorio de un conjunto anterior de esquemas de color al color de sus vecinos.

No óptimo: seleccione aleatoriamente una parte de color del conjunto correcto y vuelva a colorearla con un nuevo tono.

Aleatorio: Colores asignados completamente al azar, el número de colores diferentes es igual al número de colores de la imagen.

LLM: un esquema de coloración seleccionado aleatoriamente del resultado generado por el LLM en el experimento anterior.

en conclusión

Se le solicitaron al LLM, se evaluaron las respuestas y se pasó a la siguiente instancia sin ninguna respuesta, lo que resultó en una puntuación inicial del 16 %.

Cuando los investigadores ejecutaron la misma instancia, pero esta vez utilizando comentarios generados por el mismo modelo de lenguaje que el verificador para las solicitudes de devolución, el rendimiento cayó dramáticamente: solo una de cada 100 instancias fue respondida correctamente.

Inicialmente, devolver sugerencias con un validador calificado externamente puede parecer más efectivo.

La cantidad de casos respondidos correctamente estuvo más cerca del 40%, pero si esto significa que GPT-4 está escuchando, mejorando y razonando basándose en los comentarios, entonces los investigadores esperan que indicaciones de respuesta más precisas conduzcan a mejores resultados.

Sin embargo, en este ámbito, las puntuaciones brutas (ver Figura 2 arriba) no lo confirman.

Capacidades de verificación de LLM

Los investigadores probaron la capacidad de GPT-4 para verificar esquemas de coloración de gráficos en las mismas instancias, generando cinco tipos diferentes de esquemas de coloración para cada instancia.

El resultado obvio es exactamente el mismo que el resultado de autocorrección del LLM anterior: el modelo es casi reacio a marcar cualquier respuesta como correcta. De 100 esquemas de coloración óptimos, solo coincidió en que 2 de ellos eran correctos.

De toda la colección de 500 esquemas de sombreado, 118 de ellos son correctos y sólo afirma que 30 de ellos son correctos. De esos 30, sólo 5 eran realmente correctos.

En general, el patrón se mantiene sin cambios. En menos del 10% de los casos, LLM dio una respuesta "correcta", "no óptima" o "faltante". En estos casos, el comportamiento parece algo aleatorio.

En aproximadamente una cuarta parte de los casos responde con una validación de "eso no es correcto", la explicación coincide con la realidad y lo hace especificando no más de un borde, minimizando así la posibilidad de tergiversar algo.

Los resultados se muestran en la Tabla 2 anterior. Tenga en cuenta que a medida que aumenta la tasa de error del dominio, la proporción de alucinaciones disminuye. Es decir, cuando hay más aristas incorrectas, es más probable que el modelo identifique los errores en ellas.

LLM se autocrítica y el rendimiento disminuye en lugar de aumentar

En el artículo presentado el día 12, el autor también llegó a una conclusión coherente con lo anterior.

Ya sea planificación, simple aritmética o lógica, el modelo grande más avanzado actual, GPT-4, no es completamente competente.

Muchos investigadores lo han explorado y mejorado, incluido permitir que LLM aprenda la autoiteración, la autoverificación y otras estrategias para mejorar el desempeño.

Como resultado, la gente en la industria es optimista de que aún se pueden salvar modelos grandes.

Sin embargo, la complejidad de las tareas de inferencia en el sentido clásico es irrelevante para los modelos grandes porque LLM es un modelo que utiliza recuperación aproximada en lugar de inferencia precisa.

En un artículo enviado a arXiv el día 12, los investigadores de ASU evaluaron y analizaron sistemáticamente las capacidades de autocrítica y optimización iterativa de LLM en tareas de planificación.

En el estudio, el autor propuso un sistema de planificación que contiene un LLM generador y un LLM verificador.

Entre ellos, el generador GPT-4 es responsable de generar planes candidatos y el verificador GPT-4 es responsable de verificar la exactitud del plan y proporcionar comentarios.

Luego, los investigadores realizaron experimentos en el dominio de planificación de Blocksworld y evaluaron empíricamente:

-El impacto de la autocrítica en el desempeño de la generación de planes de todo el sistema LLM+LLM

- Desempeño del verificador LLM en relación con la verificación de la verdad sobre el terreno;

- El impacto de los niveles de retroalimentación en el rendimiento general del sistema al criticar la generación de LLM.

Los resultados muestran que la autocrítica reduce el rendimiento de la generación de planes LLM en comparación con el uso de un validador externo confiable.

La degradación del rendimiento se puede atribuir directamente a los malos resultados del validador LLM, que genera una gran cantidad de falsos positivos, que pueden dañar gravemente la confiabilidad del sistema.

La precisión de la clasificación binaria del verificador LLM es solo del 61% y hay una gran cantidad de falsos positivos (se considera correcta la planificación incorrecta).

Además, basándose en la comparación del nivel detallado de retroalimentación, se encontró que tiene poco impacto en el desempeño de la generación del plan.

En general, la investigación sistemática de este estudio proporciona evidencia preliminar que cuestiona la validez del LLM como validador de tareas de planificación dentro de un marco iterativo y autocrítico.

Introducción del autor

SubbaraoKambhampati

Subbarao Kambhampati es profesor de informática en la Universidad Estatal de Arizona. Kambhampati estudia cuestiones fundamentales en la planificación y la toma de decisiones, particularmente motivadas por los desafíos de los sistemas de inteligencia artificial con percepción humana.

Referencias:

https://twitter.com/rao2z/status/1715800819239678013

https://twitter.com/GaryMarcus/status/1715804178470387736