Investigadores del MIT y del Laboratorio de Inteligencia Artificial Watson del MIT-IBM han presentado EfficientViT, un modelo de visión por computadora que acelera la segmentación semántica en tiempo real de imágenes de alta resolución y está optimizado para dispositivos con hardware limitado, como los automóviles autónomos.

Los vehículos autónomos deben identificar con rapidez y precisión los objetos que encuentran, desde un camión de reparto parado estacionado en una esquina hasta un ciclista que se dirige a una intersección.

Los modelos de aprendizaje automático para visión por computadora de alta resolución pueden permitir aplicaciones de visión computacionalmente intensivas, como la conducción autónoma o la segmentación de imágenes médicas en dispositivos de borde. La imagen muestra la interpretación de un artista de la tecnología de conducción autónoma. Fuente de la imagen: MIT News

Para ello, los vehículos autónomos pueden utilizar potentes modelos de visión por computadora para clasificar cada píxel en una imagen de alta resolución de una escena, de modo que no se ignoren los objetos que pueden quedar ocluidos en imágenes de menor calidad. Sin embargo, esta tarea, conocida como segmentación semántica, es compleja y requiere muchos cálculos con imágenes de alta resolución.

Investigadores del MIT, el Laboratorio de Inteligencia Artificial Watson del MIT-IBM y otras instituciones han desarrollado un modelo de visión por computadora más eficiente que reduce en gran medida la complejidad computacional de esta tarea. Su modelo puede realizar con precisión una segmentación semántica en tiempo real en dispositivos con recursos de hardware limitados, como computadoras a bordo que permiten a los vehículos autónomos tomar decisiones en fracciones de segundo.

Optimice el procesamiento en tiempo real

Los modelos de segmentación semántica de última generación aprenden directamente las interacciones entre cada par de píxeles de una imagen, por lo que su esfuerzo computacional se cuadriplica con la resolución de la imagen. Debido a esto, estos modelos, si bien son precisos, son demasiado lentos para procesar imágenes de alta resolución en tiempo real en sensores o dispositivos periféricos como los teléfonos móviles.

Los investigadores del MIT han diseñado un nuevo bloque de construcción para modelos de segmentación semántica que logra las mismas capacidades que estos modelos de última generación, pero con una complejidad computacional lineal y opera con eficiencia de hardware.

El resultado es una nueva familia de modelos para visión por computadora de alta resolución que, cuando se implementan en dispositivos móviles, funcionan hasta nueve veces más rápido que los modelos anteriores. Es importante destacar que esta nueva familia de modelos muestra una precisión igual o mayor que estos modelos alternativos.


EfficientViT permite a los vehículos autónomos realizar de manera eficiente la segmentación semántica, una tarea de visión por computadora de alta resolución que implica clasificar cada píxel de una escena para que el automóvil pueda identificar objetos con precisión. En la foto se muestra una foto del vídeo de demostración que muestra los diferentes colores utilizados para la clasificación de objetos. Imagen proporcionada por investigadores.

Una mirada más cercana a las soluciones

Esta tecnología no sólo ayudará a los vehículos autónomos a tomar decisiones en tiempo real, sino que también mejorará la eficiencia de otras tareas de visión por computadora de alta resolución, como la segmentación de imágenes médicas.

"Aunque los investigadores han estado utilizando transformadores de visión tradicionales durante mucho tiempo y han logrado resultados impresionantes, esperamos que la gente también se centre en los aspectos de eficiencia de estos modelos. Nuestro trabajo muestra que es posible reducir significativamente la carga computacional, de modo que la segmentación de imágenes en tiempo real se pueda realizar localmente en el dispositivo". dijo Han Song, profesor asociado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS), miembro del Laboratorio de IA Watson del MIT-IBM y autor principal del artículo que describe el nuevo modelo.

También escriben el artículo con él Cai Han, estudiante de posgrado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación, el primer autor del artículo, Li Junyan, estudiante universitario de la Universidad de Zhejiang, Hu Muyan, estudiante universitario de la Universidad de Tsinghua, y Gan Chuang, investigador principal del Laboratorio de Inteligencia Artificial Watson del MIT-IBM. La investigación se presentará en la Conferencia Internacional sobre Visión por Computadora.

Solución simplificada

Clasificar cada píxel en una imagen de alta resolución que puede tener millones de píxeles es una tarea difícil para los modelos de aprendizaje automático. Recientemente, se ha aplicado eficazmente un nuevo y potente modelo llamado convertidor visual.

Los transformadores se desarrollaron originalmente para el procesamiento del lenguaje natural. En este caso, codifican cada palabra de la oración como un token y luego generan un mapa de atención que captura la relación entre cada token y todos los demás tokens. Este mapa de atención ayuda a comprender el contexto cuando el modelo hace predicciones.

Usando el mismo concepto, el transformador visual divide la imagen en parches de píxeles y codifica cada parche en una etiqueta, luego genera un mapa de atención. Al generar este mapa de atención, el modelo aprende directamente las interacciones entre cada par de píxeles mediante una función de similitud. De esta manera, el modelo forma lo que se llama un campo receptivo global, es decir, tiene acceso a todas las partes relevantes de la imagen.

Dado que las imágenes de alta resolución pueden contener millones de píxeles y dividirse en miles de segmentos, los gráficos de atención pueden volverse muy grandes rápidamente. Por lo tanto, a medida que aumenta la resolución de la imagen, la cantidad de cálculo se cuadriplica.

En una nueva familia de modelos llamada EfficientViT, los investigadores del MIT adoptaron un mecanismo más simple para construir mapas de atención: reemplazar funciones de similitud no lineales con funciones de similitud lineal. Por tanto, pueden reorganizar el orden de las operaciones y reducir el esfuerzo computacional total sin cambiar la funcionalidad y perder el campo receptivo global. En su modelo, el esfuerzo computacional requerido para la predicción crece linealmente con la resolución de la imagen.

"Pero no hay nada gratis. La atención lineal sólo puede capturar el fondo global de la imagen y perderá información local, empeorando así la precisión", dijo Han. Para compensar la pérdida de precisión, los investigadores agregaron dos elementos adicionales al modelo, cada uno agregando solo una pequeña cantidad de cálculo.

Uno de los componentes puede ayudar al modelo a capturar la interacción de características locales y aliviar la debilidad de las funciones lineales en la extracción de información local. El segundo elemento es un módulo que implementa el aprendizaje a múltiples escalas, ayudando al modelo a reconocer objetos grandes y pequeños.

Cai Han dijo: "La parte más crítica aquí es que debemos equilibrar cuidadosamente el rendimiento y la eficiencia". Diseñaron EfficientViT con una arquitectura compatible con el hardware, lo que facilita su ejecución en diferentes tipos de dispositivos, como cascos de realidad virtual o computadoras de vanguardia para vehículos autónomos. Su modelo también se puede aplicar a otras tareas de visión por computadora, como la clasificación de imágenes.

Simplifique la segmentación semántica

Cuando probaron su modelo en un conjunto de datos utilizado para la segmentación semántica, descubrieron que el modelo se ejecutaba nueve veces más rápido en las unidades de procesamiento de gráficos (GPU) de NVIDIA que otros modelos populares de transformadores visuales, con la misma o mejor precisión.

"Ahora podemos obtener lo mejor de ambos mundos, ralentizando los cálculos lo suficiente como para ejecutarlos en dispositivos móviles y en la nube", dijo Han Song. A partir de estos resultados, los investigadores esperan aplicar la técnica para acelerar los modelos generativos de aprendizaje automático, como los que se utilizan para generar nuevas imágenes. También esperan seguir ampliando la aplicación de EfficientViT a otras tareas de visión.

LuTian, ​​​​director senior de Algoritmos de Inteligencia Artificial de AMD, dijo: "El modelo de transformador eficiente iniciado por el equipo del profesor Han Song ahora se ha convertido en la columna vertebral de la tecnología de vanguardia en diversas tareas de visión por computadora, como la detección y la segmentación. Su investigación no solo demuestra la eficiencia y las capacidades del transformador, sino que también revela su enorme potencial en aplicaciones del mundo real, como la mejora de la calidad de la imagen en los videojuegos".

"La compresión de modelos y el diseño de modelos livianos son temas de investigación clave para lograr una computación de inteligencia artificial eficiente, especialmente en modelos básicos a gran escala. El grupo de investigación del profesor Han Song ha logrado avances significativos en la compresión y aceleración de modelos modernos de aprendizaje profundo, especialmente transformadores visuales". Jay Jackson, vicepresidente global de inteligencia artificial y aprendizaje automático de Oracle, que no participó en la investigación, añadió. "Oracle Cloud Infrastructure ha estado apoyando a su equipo en el avance de esta impactante investigación para permitir una inteligencia artificial ecológica y eficiente".