¿Quién más no sabe que "pretender" dar propina a ChatGPT puede hacer que funcione más? ¿Pero sabes cuánto es apropiado? Me hace reír tanto que alguien investigó un poco al respecto. El método es simple y tosco. Utilice el mismo mensaje para probar diferentes cantidades, desde 0,1 dólares estadounidenses hasta 100 dólares estadounidenses. Pruebe cada cantidad 5 veces. No me digas, los resultados son realmente importantes: antes que nada,Dar 10$ es la mejor relación calidad-precio, incluso más que 100$.
En segundo lugar, si desea mejorar la calidad de sus respuestas, comience con $10,000. Cuanto más, mejor. Al menos 10 preguntas serán efectivas.
Finalmente, ¿qué significa $0,1? Es absolutamente imposible hacerlo. Si la calidad no aumenta sino que disminuye, es mejor no darla: la IA también sabe que la estás enviando.
Algunos internautas lo probaron rápidamente por sí mismos y, de hecho, es eficaz.
Ven y echa un vistazo.
Tip ChatGPT, la cantidad es la clave
El hecho de que las propinas pueden mejorar el rendimiento del modelo fue descubierto por primera vez por un usuario de Twitter:
La mejora se refleja principalmente en la extensión de las respuestas, pero aquí no se trata sólo de "recuperar el recuento de palabras" sino de analizar y responder las preguntas con más detalle.
Si le preguntas directamente a ChatGPT "¿Puedo darte una propina", será rechazado:
Así que tome la iniciativa de comprometerse al hacer preguntas:
¿Puedes ayudarme xxxx? La solución es bastante perfecta, puedo dar una propina de xx yuanes.
Recuerde, no es necesario que lo mencione, pero no diga "No lo daré". El rendimiento del modelo mostrará directamente un "crecimiento negativo".
En ese momento, alguien sintió curiosidad:
¿Son codiciosas las modelos grandes? ¿Cuanto más les des, mejor será su desempeño?
Para resolver esta duda decidieron comprobarlo ellos mismos.
Aquí, el autor propone primero una hipótesis:
A medida que aumenta la cantidad de propina dada, el rendimiento del modelo mejorará linealmente hasta que alcance un punto de convergencia y entre en un estado estable o decreciente.
El modelo utilizado para los experimentos es GPT-4Turbo (versión api).
El método consiste en dejar que escriba una sola línea de código Python (PythonOne-Liner) para verificar si dar diferentes consejos tiene diferentes efectos en la calidad.
La calidad aquí se evalúa en función del número de líneas individuales. El autor también "declara explícitamente" el modelo en la palabra clave: cuanto mayor sea el número de líneas individuales de código, mejor será el rendimiento.
Luego se probaron un total de 8 tipos de cuotas:0,1 USD, 1 USD, 10 USD... hasta 1 millón de USD.
Para garantizar la coherencia y confiabilidad de los resultados, cada cantidad se probó 5 veces, cada vez incluyendo la situación sin propinas, y luego la calidad de la respuesta del modelo se registró por separado.
Específicamente, registra la cantidad de líneas válidas de código generadas y la cantidad aproximada de tokens en la respuesta (aproximadamente la longitud de la respuesta/4, la cantidad de código de respuesta).
Cuanto mayores sean los dos datos, mejor será el rendimiento del modelo.
Resumiendo los resultados, se obtiene una imagen como esta:
La línea de puntos representa el nivel de referencia, la línea continua representa el desempeño real, el rojo representa la cantidad de tokens y el azul representa el puntaje de calidad.
Hay algunas desviaciones de los supuestos:
En general, tanto la línea roja como la azul aumentan a medida que aumenta la cantidad de propina, pero tras una inspección más cercana, esta tendencia no es estrictamente consistente.
A partir de la cuota de $10,000, los tokens de salida del modelo (volumen de código) comenzaron a aumentar significativamente y la calidad de las respuestas del modelo también aumentó, pero no en la misma proporción.
Esto también se puede ver en la barra de error roja vertical (que representa la diferencia en los resultados de los cinco experimentos), que fluctúa mucho.
El autor dijo: Esto muestra que aumentar la cantidad de propina tiene una correlación positiva con la calidad y la duración del resultado del modelo, pero la relación es algo complicada y puede verse afectada por algunos factores que no son inmediatamente visibles.
Sin embargo, todavía podemos ver algunas conclusiones obvias, tales como:
(1) Una propina de $0,1 es peor que ninguna propina. La calidad de la resolución de problemas del modelo y la extensión de sus respuestas han caído significativamente por debajo del nivel de referencia (alrededor de -27%).
(Autor: Los modelos, al igual que los humanos, se sienten insultados).
(2) Lo mismo ocurre con dar 1 dólar.
(3) El mejor ejemplo de "gastar un poco de dinero para hacer grandes cosas" es $10. El progreso logrado está al mismo nivel que el de 100.000 dólares.
(4) Sorprendentemente, después de 10 dólares, el rango de 100 a 1.000 dólares no supone mucha diferencia para la IA, y ni siquiera es tan eficaz como 10 dólares: también cae por debajo del nivel básico.
(5) Si desea continuar mejorando el rendimiento del modelo más adelante, debe comenzar desde 10,000 dólares estadounidenses——
En este momento, solo se ha mejorado la cantidad de código y la calidad aún es difícil de describir. Se necesitarán al menos 100.000 dólares estadounidenses.
(6) Los mejores resultados provienen del límite superior de este experimento: 1 millón de dólares, lo que representa un aumento de aproximadamente el 57%.
Ejem, ahora sé cómo darle propina a la IA:
Son 10 yuanes, decenas de miles o 1 millón sin límite (de todos modos, todo es fingir).
Sin embargo, alguien (@宝玉 en Twitter) señaló que 5 experimentos por cuota es un poco poco.
Da la casualidad de que el autor también dijo:
Este es sólo un experimento preliminar y tiene limitaciones. Es necesario verificarlo más a fondo con más tipos diferentes de indicaciones para que sea eficaz.
Entonces, esto es sólo como referencia ~
Por cierto, algunos internautas recordaron:
Por lo tanto, cada uno sigue haciendo lo que puede (cabeza de perro manual).
Enlaces de referencia:
[1] https://blog.finxter.com/impacto-de-incentivos-monetarios-en-el-rendimiento-de-gpt-4-turbo-an-experimental-analysis/
[2]https://twitter.com/dotey/status/1752843141403550192