Google DeepMind anunció el lunes el lanzamiento de la tercera generación del modelo mundial de propósito general Genie 3, que puede generar entornos interactivos diversos sin precedentes y dar indicaciones de texto. Genie 3 puede generar mundos dinámicos en los que se puede navegar en tiempo real a 24 cuadros por segundo y permanecer consistentes durante varios minutos con una resolución de 720p.


Genie 3 estará disponible inicialmente como un avance de investigación limitado para que un pequeño grupo de académicos y creadores recopilen comentarios críticos.

Avance del genio 3

DeepMind ha acumulado más de diez años de experiencia en el campo de los entornos simulados. Desde entrenar IA para jugar juegos de estrategia en tiempo real hasta desarrollar entornos de aprendizaje abiertos para robots, todos estos estudios apuntan a un objetivo común: construir modelos potentes del mundo.

Genie 3 es el primer modelo mundial que permite la interacción en tiempo real y, al mismo tiempo, ofrece mayor coherencia y realismo en comparación con los modelos de generaciones anteriores, como Genie 1/2, y los modelos de generación de vídeo, como Veo 2. El profundo conocimiento de la física intuitiva de Veo 3

característicagenio 2veogenio 3
resolución360p720p a 4K720p
campoentorno 3DUniversalUniversal
Método de controlTeclado/ratón limitadodescripción del nivel de vídeoNavegación en tiempo real; eventos mundiales inmediatos
Duración de la interacción10-20 segundos8 segundosunos minutos
Retraso de interaccióntiempo no realno aplicabletiempo real

competencias básicas

Simule las propiedades físicas del mundo: Genie 3 tiene un profundo conocimiento de las leyes físicas y puede simular de manera realista el flujo de agua, los cambios de luces y sombras y las interacciones ambientales complejas, como helicópteros que maniobran cuidadosamente alrededor de acantilados y cascadas.

Simule el mundo natural: desde vibrantes ecosistemas en las orillas de lagos glaciares hasta adorables criaturas peludas que saltan sobre puentes de arcoíris en mundos de fantasía, Genie 3 transforma la imaginación en una realidad explorable.

Animación y modelado de novelas: puedes usar tu imaginación para crear escenas fantásticas y personajes animados expresivos.

Explore diferentes regiones y escenas históricas: el modelo puede trascender las limitaciones geográficas y de tiempo y llevar a los usuarios a explorar diferentes lugares y épocas históricas, ya sea que estén volando sobre montañas cubiertas de nieve con un traje aéreo o inmersos en una ciudad antigua con una larga historia.

Superando los límites del rendimiento en tiempo real: para lograr un alto grado de controlabilidad e interactividad en tiempo real, durante la generación autorregresiva de cada cuadro, el modelo debe considerar trayectorias generadas previamente que crecen con el tiempo. Por ejemplo, si un usuario vuelve a visitar una ubicación un minuto después, el modelo debe hacer referencia a información relevante de hace un minuto. Para lograr interactividad en tiempo real, este cálculo debe realizarse muchas veces por segundo en respuesta a la llegada de nuevos datos del usuario.

Coherencia del entorno a largo plazo: para que los mundos generados por la IA sean inmersivos, deben permanecer físicamente consistentes durante largos períodos de tiempo. Sin embargo, generar entornos con regresión automática suele ser un problema técnico más difícil que generar un vídeo completo, ya que las imprecisiones tienden a acumularse con el tiempo. Los entornos de Genie 3 son en gran medida consistentes durante varios minutos y la memoria visual se remonta a hace un minuto. Los mundos generados por Genie 3 son más dinámicos y ricos porque se crean cuadro por cuadro en función de las descripciones y acciones del mundo del usuario.

Promptable World Events: además de la entrada de navegación, Genie 3 también admite una forma más expresiva de interacción basada en texto llamada Promptable World Events. Los eventos mundiales identificables pueden alterar el mundo generado, como cambiar las condiciones climáticas o introducir nuevos objetos y personajes, mejorando así la experiencia de control de navegación. Esta capacidad también aumenta la amplitud de escenarios contrafácticos o hipotéticos que los agentes pueden utilizar para aprender de la experiencia y afrontar situaciones inesperadas.

Investigación sobre el empoderamiento de la inteligencia corporal

Uno de los objetivos finales de Genie 3 es proporcionar un campo de entrenamiento infinitamente rico para los agentes encarnados. DeepMind lo ha probado en combinación con el agente de uso general SIMA. Los investigadores pueden asignarle un objetivo a SIMA (como encontrar una batidora industrial en una panadería), y SIMA intenta completar la tarea enviando instrucciones de navegación a Genie 3. Genie 3 es como un mundo real, que proporciona resultados de retroalimentación en tiempo real basados ​​en el comportamiento de SIMA, lo que permite al agente aprender y crecer en una gran cantidad de escenarios hipotéticos.

limitaciones actuales

Limitaciones actuales de Genie 3:

Espacio de acción limitado: el rango de acción directa del agente aún es limitado

Falta de simulación de múltiples agentes: dificultad para simular con precisión interacciones complejas entre múltiples agentes independientes

Precisión geográfica insuficiente: no se pueden replicar perfectamente ubicaciones geográficas del mundo real

Mala representación del texto: el texto generado suele estar borroso a menos que se especifique en el mensaje inicial.

Duración limitada de la interacción: actualmente admite interacciones continuas de minutos, no de horas.