CSAIL del MIT presenta PFGM++, un modelo de inteligencia artificial que combina procesos de difusión y Poisson. Genera imágenes extraordinarias replicando el comportamiento de los campos eléctricos y representa un salto adelante en la inteligencia artificial generativa. Inspirado en la física, el nuevo modelo generativo PFGM++ supera a los modelos de difusión en la generación de imágenes. La inteligencia artificial generativa se encuentra actualmente en la cúspide de un tema candente, que promete crear un mundo donde distribuciones simples evolucionen hacia patrones complejos de imágenes, sonidos o texto, haciendo que la inteligencia artificial sea sorprendentemente real.

A medida que los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT dan vida a modelos innovadores de inteligencia artificial, el reino de la imaginación ya no es solo un concepto abstracto. Su nueva técnica integra dos leyes físicas aparentemente no relacionadas que subyacen a los modelos generativos de mejor rendimiento hasta la fecha: la difusión (que normalmente explica el movimiento aleatorio de elementos, como el calor que impregna una habitación o un gas que se expande en el espacio) y los procesos de Poisson (que se basan en principios que gobiernan la actividad de las cargas eléctricas).


Esta combinación armoniosa permite a Ezoic sobresalir en la generación de nuevas imágenes, superando los modelos de última generación existentes. Desde sus inicios, Poisson Flow Generative Model++ (PFGM++) ha encontrado aplicaciones potenciales en campos que van desde la generación de secuencias de anticuerpos y ARN hasta la producción de audio y la generación de gráficos.

El modelo puede generar patrones complejos, como crear imágenes realistas o imitar procesos del mundo real. PFGM++ se basa en el PFGM del equipo, que fue el resultado de la investigación del año pasado. PFGM se inspira en una ecuación matemática conocida como ecuación de "Poisson" y luego la aplica a los datos que el modelo intenta aprender. Para hacer esto, el equipo utilizó un truco inteligente: agregaron una dimensión adicional al "espacio" del modelo, un poco como pasar de un boceto bidimensional a un modelo tridimensional. Esta dimensión adicional proporciona más espacio para operar, coloca los datos en un contexto más amplio y ayuda a abordar los datos desde todas las direcciones al generar nuevas muestras.

Jesse Thaler, físico teórico de partículas del Centro de Física Teórica del Laboratorio de Ciencias Nucleares del MIT y director del Instituto de Inteligencia Artificial e Interacciones Fundamentales (NSFAIIAIFI) de la Fundación Nacional de Ciencias, dijo: "PFGM++ es un ejemplo de colaboración interdisciplinaria entre físicos e informáticos para avanzar en el progreso de la inteligencia artificial. En los últimos años, los modelos generativos basados en inteligencia artificial han producido resultados infinitos, desde imágenes fotorrealistas hasta flujos de texto claros. Los resultados son En particular, algunos de los modelos generativos más potentes se basan en conceptos de física probados en el tiempo, como la simetría y la termodinámica.

El mecanismo básico de PFGM no es tan complicado como parece. Los investigadores comparan los datos con pequeñas cargas en un avión en un mundo dimensionalmente expandido. Estas cargas crean un "campo eléctrico" que sube por las líneas de campo hacia una dimensión adicional, creando una distribución uniforme sobre un hemisferio imaginario gigante. El proceso de generación es como rebobinar: comenzando con un conjunto de cargas distribuidas uniformemente en un hemisferio y siguiendo su progreso hasta el plano a lo largo de las líneas del campo eléctrico, se alinean para que coincidan con la distribución de los datos originales. Este interesante proceso permite que los modelos neuronales aprendan campos eléctricos y generen nuevos datos que sean consistentes con los datos originales.

El modelo PFGM++ extiende el campo eléctrico en PFGM a un marco complejo de alta dimensión. A medida que continúa expandiendo estas dimensiones, sucede algo inesperado: el modelo comienza a parecerse a otra clase importante de modelos, a saber, los modelos de difusión. El trabajo consiste en encontrar el equilibrio adecuado. Los modelos PFGM y los modelos de difusión se encuentran en extremos opuestos del espectro: uno es potente pero complejo de manejar, el otro es simple pero menos robusto. El modelo PFGM++ encuentra el equilibrio adecuado entre robustez y facilidad de uso. Esta innovación allana el camino para una generación más eficiente de imágenes y patrones, lo que marca un importante paso adelante para la tecnología. Además de ser ajustable en tamaño, los investigadores también propusieron un nuevo método de entrenamiento que puede aprender campos eléctricos de manera más eficiente.

Para poner esta teoría en práctica, el equipo resolvió un par de ecuaciones diferenciales que detallan el movimiento de estas cargas en un campo eléctrico. Evaluaron su rendimiento utilizando la puntuación Frechette Inception Distance (FID), una métrica ampliamente aceptada para evaluar la calidad de las imágenes generadas por un modelo en comparación con imágenes reales. PFGM++ demuestra además una mayor tolerancia al error y robustez a los tamaños de paso en ecuaciones diferenciales.

En el futuro, su objetivo es perfeccionar ciertos aspectos del modelo, en particular analizando el comportamiento del error de estimación de las redes neuronales para identificar sistemáticamente valores de "punto óptimo" de D que se adaptan a datos, arquitecturas y tareas específicas. También planean aplicar PFGM++ a la generación moderna de texto a imagen/texto a video a gran escala.

"Los modelos de difusión se han convertido en una importante fuerza impulsora detrás de la revolución de la IA generativa", afirmó Yang Song, científico investigador de OpenAI. "PFGM++ proporciona una poderosa generalización de los modelos de difusión, lo que permite a los usuarios generar imágenes de mayor calidad al mejorar la solidez de la generación de imágenes ante perturbaciones y errores de aprendizaje. Además, PFGM++ descubrió conexiones sorprendentes entre la electrostática y los modelos de difusión, lo que proporciona nuevos conocimientos teóricos en la investigación de modelos de difusión".

Karsten Kreis, científico investigador senior de NVIDIA, dijo: "Los modelos generativos de flujo de Poisson no solo se basan en elegantes formulaciones heurísticas físicas basadas en electrostática, sino que también proporcionan un rendimiento de modelo generativo de última generación en la práctica. Incluso superan a los populares modelos de difusión que actualmente dominan la literatura".