Google acaba de lanzar Gemini, su conjunto de modelos de inteligencia artificial más potente hasta el momento, pero la empresa ha sido acusada de mentir sobre su rendimiento. Una columna de Bloomberg afirmó que Google tergiversó el desempeño de Gemini en un video reciente. El columnista Parmy Olson dijo que Google reprodujo un impresionante vídeo práctico "What the AIquack" en su evento de lanzamiento a principios de esta semana. En el vídeo, Géminis parecía muy capaz, tal vez demasiado poderoso.
Este vídeo de seis minutos demuestra las capacidades multimodales de Gemini (por ejemplo, indicaciones de diálogo hablado combinadas con reconocimiento de imágenes). Gemini parece ser capaz de reconocer rápidamente imágenes (incluso imágenes conectadas), reaccionar en segundos y rastrear bolas de papel en un juego de taza y pelota en tiempo real. Por supuesto, los humanos pueden hacer todo esto, pero se trata de una IA que puede reconocer y predecir lo que sucederá a continuación.
Sin embargo, haga clic en la descripción del vídeo en YouTube y Google tendrá un importante descargo de responsabilidad: "Para fines de demostración, se ha reducido la latencia y la salida de Gemini se ha acortado para simplificar".
Aquí es donde Olson no está satisfecho. Según su artículo de Bloomberg, Google admitió cuando se le pidió un comentario que la demostración en video no se realizó en vivo con indicaciones de voz, sino que utilizó fotogramas de imágenes fijas del metraje original y luego escribió indicaciones de texto para que Gemini respondiera. Olson escribió: "Esto es muy diferente de lo que Google parece estar insinuando: que uno puede tener una conversación de voz fluida con Gemini, mientras Gemini observa y responde al mundo que lo rodea en tiempo real. Para ser justos, Google a menudo edita videos de demostración, especialmente porque muchas compañías quieren evitar cualquier falla técnica que viene con las demostraciones en vivo. Un ligero ajuste suele ser Sí. Pero Google ha tenido problemas con las demostraciones de video. La gente se mostró escéptica sobre la demostración de Duplex de Google (¿recuerdan Duplex? Duplex era una Asistente de voz de IA que podría llamar a peluquerías y restaurantes para hacer reservas). Y los vídeos pregrabados de modelos de IA tienden a hacer que la gente sea aún más escéptica".
En este caso, Olson cree que Google está "alardeando" para engañar a la gente haciéndoles saber que Gemini todavía está por detrás del GPT de OpenAI.
Google no está de acuerdo con esto. Cuando se le preguntó sobre la autenticidad de la demostración, Google señaló un artículo de Oriol Vinyals, vicepresidente de investigación y jefe de aprendizaje profundo de Google DeepMind (que también codirige Gemini), que explica cómo el equipo creó el vídeo.
Vinyals dijo: "Todas las indicaciones y resultados del usuario en el video son reales y se han acortado para mayor brevedad. El video muestra una experiencia de usuario multimodal creada con Gemini. Lo hicimos para inspirar a los desarrolladores".
Añadió que el equipo le dio a Gemini imágenes y textos y le pidió que predijera lo que sucedería a continuación.
Esa es ciertamente una forma de manejar la situación, pero podría no ser la adecuada para Google, que, al menos a los ojos del público, ha quedado sorprendida por el éxito desbocado de OpenAI este año. Si Google quiere incentivar a los desarrolladores, no puede hacerlo mediante videos promocionales cuidadosamente editados que podrían tergiversar las capacidades de la IA. Pero permitiendo que los periodistas y desarrolladores experimenten realmente el producto. Dejemos que la gente haga estupideces con Gemini en una pequeña beta pública. Veamos qué tan poderoso es.