Ayer, un artículo estudió sistemáticamente por qué GPT-4 puede "reducir la inteligencia", lo que provocó extensos debates en el círculo de la IA. A medida que todo el mundo usa GPT-4 cada vez con más frecuencia, los usuarios reaccionarán intensamente de vez en cuando y GPT-4 parece haberse vuelto estúpido nuevamente.


La situación reciente es que si el usuario accidentalmente le dice a GPT-4 que es diciembre, el contenido de salida de GPT-4 se reducirá significativamente.

Un usuario realizó una prueba especialmente y le dijo a GPT-4 que eran mayo y diciembre. Luego comparó los resultados de producción y descubrió que los resultados de diciembre fueron mucho peores que los de mayo.


Todos en la discusión piensan que GPT-4 se tomará unas vacaciones de invierno y no querrá trabajar hasta diciembre.

Pero si lo analizamos en este artículo, el autor cree que la razón principal es que el modelo grande tiene un defecto que ahora parece casi irresoluble: la falta de capacidades de evolución y aprendizaje continuo.


Dirección del artículo: https://arxiv.org/abs/2312.16337

Descubrimos que LLM tuvo un desempeño significativamente mejor en los conjuntos de datos publicados antes de la fecha de creación de los datos de capacitación que en los conjuntos de datos publicados después de la fecha de capacitación.


LLM presentará esta situación ya sea que se trate de pruebas de muestra cero o de muestras múltiples.

El documento también señala que LLM se desempeña bien en tareas que en realidad han "visto" antes, pero se desempeña mal en tareas nuevas. La razón fundamental es que simplemente recuerdan las respuestas y no pueden adquirir nuevos conocimientos y comprensión de manera efectiva.

La razón por la que esta diferencia de rendimiento es tan grande radica en la "contaminación de tareas".


En la tabla anterior, el autor encontró que los ejemplos de tareas se pueden extraer del modelo GPT-3, y en cada nueva versión de davinci a GPT-3.5-turbo, la cantidad de ejemplos de entrenamiento extraídos aumenta, lo que está estrechamente relacionado con la mejora del rendimiento de disparo cero de los modelos de la serie GPT-3 en estas tareas.

Para decirlo sin rodeos, la razón por la que el modelo funciona bien en la prueba del conjunto de datos antes de la fecha límite es porque los datos de entrenamiento ya contienen los problemas en el conjunto de datos.

Esto demuestra plenamente que la mejora del rendimiento de varias versiones de la serie GPT-3 en estas tareas se debe a la contaminación de las tareas.

Para aquellas tareas de clasificación en las que no hay evidencia de contaminación de tareas, los modelos de lenguaje grandes rara vez superan significativamente las líneas de base de mayoría simple en entornos de cero y pocos intentos.

En la tabla anterior, los investigadores también enumeran que para 51 combinaciones de modelo/conjunto de datos con ejemplos de tareas de recopilación de datos posteriores al entrenamiento y sin extracción, solo 1 combinación de modelos puede superar significativamente a la mayoría de los puntos de referencia en entornos de muestra cero o de pocas muestras.

Esto muestra que una vez que no existe posibilidad de contaminación de tareas, el rendimiento de muestras cero y de pocas muestras de LLM en realidad no es sobresaliente.

Después de leer esto, los internautas se expresaron con pesimismo: actualmente es difícil construir un modelo de aprendizaje automático que pueda adaptarse continuamente sin causar interferencias catastróficas al conocimiento codificado del pasado y al nuevo conocimiento.


ChatGPT es una instantánea de la Internet del pasado: a medida que Internet cambia, ChatGPT se vuelve obsoleto tanto en el conocimiento como en la realización de tareas útiles.

Tanto OpenAI como las grandes empresas de modelos tienen que afrontar el hecho de que tienen que volver a entrenar constantemente nuevos modelos.


Quizás esta sea, hasta cierto punto, la razón por la que la gente encontrará que ChatGPT vuelve a ser estúpido después de un tiempo. Tal vez sea simplemente porque sigues probándolo con nuevas preguntas y su verdadera calidad queda expuesta poco a poco.

modelo de prueba

Los investigadores probaron 12 modelos:

5 modelos GPT lanzados por OpenAI y 7 LLM de código abierto.


Para estos modelos, seleccionaron dos conjuntos de datos justo antes y después del tiempo de entrenamiento del modelo para realizar las pruebas.


Método de prueba

Análisis de tiempos

Luego, los investigadores probaron el rendimiento de diferentes modelos en los mismos dos conjuntos de datos. De los resultados se desprende claramente que para los conjuntos de datos publicados después de la fecha límite de entrenamiento de datos del modelo, el rendimiento de muestra cero y de muestras múltiples es significativamente peor.


Para 12 modelos y 16 conjuntos de datos, los investigadores realizaron 192 combinaciones de modelo/conjunto de datos.

De estas combinaciones, 136 conjuntos de datos se publicaron antes de la fecha de recopilación de datos de capacitación de LLM (pre-recopilación) y 56 conjuntos de datos se publicaron después (post-recopilación). Para ambos conjuntos, calculamos el porcentaje de combinaciones de modelo/conjunto de datos en las que el modelo supera la mayoría de las líneas de base (cero posibilidades y pocas posibilidades).

Los resultados se muestran en la Figura 1 a continuación. Descubrimos que para los conjuntos de datos publicados antes de que se creara el LLM, es más probable que el LLM supere las líneas de base de la mayoría en entornos de muestra cero y minoritarios.


Para un solo LLM, encontramos además:

Pruebe cada LLM individualmente. Los resultados se muestran en la Figura 2 anterior. Estas tendencias persisten en modelos con todo el rango de fechas, lo que sugiere además que la fecha absoluta del conjunto de datos no es el factor principal, sino que la variación en el conjunto de datos de fechas en relación con la fecha de recopilación de datos de capacitación de LLM es el factor más importante.

Análisis de extracción de muestras de tareas.

Si el LLM puede generar ejemplos que coincidan exactamente con los de los datos de prueba, demuestra que el LLM ha visto el conjunto de pruebas para la tarea durante el entrenamiento.

Los investigadores utilizaron un enfoque similar para probar la contaminación de las tareas. No intentan generar datos de prueba, sino que solicitan al modelo que genere ejemplos de entrenamiento, ya que para cero o menos evaluaciones, el modelo no debe entrenarse en ningún ejemplo de tarea.

Si el LLM puede generar ejemplos de capacitación basados ​​en sugerencias, esto es evidencia de contaminación de tareas.

La Tabla 4 a continuación muestra los resultados de extracción de ejemplos de tareas para todas las tareas en todos los modelos.


Otros investigadores también encontraron que para las tareas que no han demostrado tener la posibilidad de contaminación, el LLM rara vez muestra mejoras estadísticamente significativas con respecto a la mayoría de las líneas de base.

En la Tabla 4 anterior, para las 51 combinaciones de modelo/conjunto de datos después de la recopilación y sin extraer ejemplos de tareas, solo 1 de 51 combinaciones de modelo/conjunto de datos (es decir, 2%) mostró una mejora estadísticamente significativa con respecto a la mayoría de las líneas de base en el entorno de cero o pocos disparos.

Análisis de razonamiento de miembros.

Para examinar más a fondo el impacto de la contaminación de los datos de entrenamiento, los investigadores aplicaron un ataque de inferencia de membresía para verificar si el contenido generado por el modelo coincidía exactamente con los ejemplos del conjunto de datos.


Las Figuras 5a y 5b anteriores muestran cuántos ejemplos generados por el conjunto de capacitación de muestra y el conjunto de desarrollo completo de las versiones de la serie GPT-3 y el último LLM de código abierto son exactamente iguales.

Debido a que los esquemas de la base de datos (esquemas de base de datos) no están en la sugerencia de disparo cero, si el modelo puede generar exactamente los mismos nombres de tabla o campo que en los datos de entrenamiento o desarrollo, debe haber contaminación.

Como se muestra en la Figura 5, la cantidad de ejemplos generados por coincidencia exacta aumenta con el tiempo, lo que indica que el nivel de contaminación de tareas en Spider está aumentando.

También calcularon la precisión de la ejecución después de agregar patrones a las indicaciones y la trazaron en función del número de coincidencias exactas (Figura 6). Encontramos una fuerte correlación positiva entre el número de ejemplos generados totalmente coincidentes y la precisión de la ejecución (? = 0,88), lo que sugiere fuertemente que una mayor contaminación está asociada con un mejor rendimiento.


Referencias:

https://arxiv.org/abs/2312.16337