Actualización del ranking LLM: Google Bard supera a GPT-4 Los jugadores chinos no están entre los primeros ten

Hoy, la clasificación de Google Bard superó a GPT-4 en la competencia de clasificación para LLM de Imsys y saltó directamente al segundo lugar.(Pero no más que el último modelo GPT-4Turbo de OpenAI): al encontrarse con esta cosa buena, el científico jefe de Google, Jeff Dean, fue, por supuesto, el primero en venir a "presumir" y traer su propio modelo GeminiPro.

Introducción al ranking

Esta clasificación de LLM (plataforma de referencia ChatbotArena) fue iniciada por la organización LMSYS (Large Model Systems Organization) dirigida por investigadores de UC Berkeley. Las clasificaciones se obtienen según el sistema de clasificación Elo a través de batallas 1 contra 1 aleatorias y anónimas entre LLM.

Como se muestra en la siguiente figura, puede hacer cualquier pregunta. El lado izquierdo es la respuesta del modelo A y el lado derecho es la respuesta del modelo B. Luego puedes calificar las respuestas de los dos modelos. Hay cuatro opciones en total: "A es mejor; B es mejor; A es tan bueno como B; A es tan malo como B". Si no puedes decidir en una ronda de chat, puedes continuar chateando hasta que elijas el que creas que es mejor, pero si la identidad de la gran modelo se expone durante el chat, el voto no se contará.

La siguiente figura muestra la distribución proporcional de la probabilidad de ganar (excluyendo empates) del modelo A cuando juega contra el modelo B:

La siguiente figura muestra el número de batallas para cada combinación de modelos (sin empates))

El siguiente gráfico muestra la tasa de ganancia promedio de un solo modelo en relación con todos los demás modelos:

OpenAI domina la lista, pero los jugadores chinos no están entre los diez primeros

La siguiente imagen muestra las clasificaciones actuales de los 10 mejores en la lista. Se puede ver que los modelos de la serie GPT todavía tienen una ventaja absoluta (tres de los cuatro primeros), mientras que los modelos de la serie Claude de Anthropic ocupan tres de los diez primeros. Mistral, una empresa que dice ser la versión europea de OpenAI, esta vez también tiene dos modelos entre los diez primeros.

Además, mire la columna más a la derecha en la imagen de arriba.Entre los 10 modelos principales, 9 son modelos privados de código cerrado, lo que demuestra que el modelo de código abierto todavía tiene un camino por recorrer.

Es una pena que el gran modelo lingüístico de los jugadores chinos no haya entrado entre los diez primeros.

Entre ellos, el modelo de mayor ranking es el modelo Yi-34B-Chat, propiedad de la nueva empresa Zero-One de Kai-Fu Lee, que ocupa el puesto 13.

Seguido por el modelo de chat Tongyi Qianwen Qwen-14B de Alibaba, que ocupa el puesto 36:

Luego está el modelo de la serie ChatGLM de Zhipu AI, la nueva empresa del profesor Tang Jie de Tsinghua:

Es necesario explicar tres puntos:

1. Hay muchos modelos desarrollados por los principales fabricantes chinos que pueden no estar incluidos en esta lista;

2. Esta lista es para el público global; hasta ahora, más usuarios eligen chatear en inglés que en chino, lo que puede ser perjudicial para el gran modelo de lenguaje desarrollado por los jugadores chinos;

3. Esta lista solo cuenta las preguntas y chats aleatorios de 200.000 usuarios, lo que representa la evaluación real de los usuarios que chatean con LLM. Sin embargo, debido a la desigualdad en las preguntas de los usuarios y a la profesionalidad, la evaluación tiene cierto grado de subjetividad.

Finalmente, hablemos de Google. En un momento en el que los despidos y los científicos se van para iniciar negocios, los problemas internos y externos (para más detalles, ¡visite el sitio Crisis Breakout de Google! Los científicos se van para iniciar negocios, los empleados son despedidos...), ¿podrá Google completar el "Imperio Contraataca" en 24 años?

¡Esperemos y veremos!