El responsable de conducción autónoma de Nvidia explica en detalle la hoja de ruta para “superar a Tesla y Waymo”

Líder del negocio automotriz de NVIDIAWu XinzhouAproximadamente cada seis meses, cuando el sistema de conducción autónoma llegue a un punto en el que esté "suficientemente seguro", el director ejecutivo Huang Jen-Hsun será invitado a subir al coche para una prueba en carretera real. Más recientemente, los dos condujeron desde Woodside, California, hasta el centro de San Francisco, en un Mercedes-Benz CLA equipado con el sistema de asistencia a la conducción manos libres MB.Drive Assist Pro. Este sistema fue diseñado en parte por NVIDIA y en su forma se acerca bastante al "Full Self-Driving" (FSD) de Tesla.

Aunque había mucho tráfico en la carretera, el ambiente dentro del coche era relajado. Huang Renxun incluso bromeó diciendo que "comenzó a preocuparse menos por la seguridad" después de que el sistema entró en modo de conducción autónoma.

Posteriormente, Nvidia proporcionó a los medios un vídeo de 22 minutos a bordo del vehículo, en el que el Mercedes-Benz recorría complejos escenarios urbanos cotidianos, como carreteras en construcción, vehículos estacionados ilegalmente y carreteras estrechas marcadas por conos naranjas de control de carreteras. El sistema funcionó bastante bien, pero el vídeo fue editado y no fue una grabación completa. Un portavoz de Nvidia enfatizó más tarde que no hubo ningún "fallo en la toma de control" del sistema que requiriera intervención manual durante todo el viaje. El autor experimentó previamente un sistema similar en un automóvil con ejecutivos de Nvidia en San Francisco y quedó impresionado por su capacidad para operar en semáforos, intersecciones de cuatro vías, vehículos estacionados ilegalmente, giros a la izquierda sin protección y entre peatones, bicicletas y scooters. Él cree que no es difícil para la compañía de chips más valiosa del mundo fabricar el mismo sistema o incluso mejor bajo la premisa de que Tesla ya ha probado una solución que utiliza cámaras y chips.

Después de años de “empoderamiento detrás de escena”, Nvidia ha comenzado a ubicarse de manera proactiva en el centro del escenario de la industria de la conducción autónoma. Además de seguir suministrando chips aptos para automóviles a Tesla y otras empresas automotrices, también empaqueta sus funciones de conducción de IA de desarrollo propio en una plataforma y las proporciona a socios como Mercedes-Benz, Jaguar Land Rover y Lucid. En CES a principios de este año, Huang Renxun lanzó una cartera de desarrollo de conducción autónoma llamada "Alpamayo", que abarca modelos de IA, planos de simulación y conjuntos de datos, con el objetivo de permitir que los vehículos alcancen la conducción autónoma L4 en condiciones específicas. Incluso llamó a este nodo "el momento ChatGPT de la IA del mundo físico".

Sin embargo, al hablar con Wu Xinzhou en el automóvil, Huang Renxun contuvo su arrogancia en la conferencia de prensa y prefirió reflexionar con calma, pero aún se mostraba extremadamente optimista sobre el futuro de la tecnología. Admitió que el poder de Alpamayo radica en su capacidad de razonar sobre el medio ambiente, pero la verdadera dificultad radica en que "no sabemos qué no puede hacer", por lo que aún necesita integrarse profundamente con la tradicional "pila de tecnología clásica". En su opinión, es difícil demostrar la seguridad de un modelo grande puramente de extremo a extremo desde una perspectiva de ingeniería, mientras que la pila de tecnología clásica se basa en procesos de ingeniería maduros y es más propicio para la verificación segura de comportamientos específicos. La combinación de ambos no sólo puede lograr un estilo de conducción cercano al humano, sino también limitar los comportamientos dentro del marco de las normas de tráfico tradicionales. Aunque otros actores de la industria de vehículos autónomos también imponen reglas de seguridad explícitas sobre las redes neuronales de extremo a extremo, el aprendizaje de extremo a extremo se está convirtiendo en una nueva tendencia en la industria: Waymo adopta un enfoque híbrido y Tesla está apostando casi por completo a las redes de extremo a extremo.

Wu Xinzhou dijo en la entrevista que el modelo de extremo a extremo puede reducir la sensación mecánica y el retraso "robótico" al lidiar con escenas delicadas como badenes y cambios de carril, y está más cerca del ritmo de conducción de la vida real. Por eso destacó el "momento ChatGPT". "Sólo cuando el coche se comporte con confianza, los usuarios estarán más dispuestos a seguir usándolo", afirmó.

En comparación con Tesla, Wu Xinzhou sitúa las diferencias de Nvidia más en su combinación de sensores y arquitectura de sistema, en lugar de comentar en público las controversias de seguridad de sus oponentes. Tesla FSD ha acumulado más de 8.5 mil millones de millas de pruebas en carretera hasta ahora, pero también ha estado involucrado en muchos accidentes de seguridad graves. Las autoridades reguladoras lo han señalado como involucrado en 23 lesiones y al menos dos accidentes fatales. Un ejecutivo de NVIDIA reveló el año pasado que la compañía había utilizado su propio sistema y Tesla FSD para pruebas comparativas internas. A juzgar por la cantidad de adquisiciones de conductores, ambos tenían sus propias ventajas en diferentes escenarios.

Wu Xinzhou enfatizó que NVIDIA insiste en utilizar una combinación de sensores "redundantes de múltiples fuentes": además de cámaras y radares de ondas milimétricas, también se implementarán sensores ultrasónicos y se agregará lidar en configuraciones superiores. En su opinión, la redundancia y diversidad de varios sensores son la clave para complementar escenarios extremos y mejorar la redundancia de seguridad general. Por supuesto, cuantos más sensores haya, mayor será el coste del hardware de todo el sistema, especialmente del lidar, lo que hace que a la gente le preocupe que las soluciones con las más altas especificaciones de seguridad sólo aparezcan en coches de lujo caros. En este sentido, Wu Xinzhou cree que confiar en la solución de "integración vertical" de NVIDIA y la tendencia general a la baja en los precios de los sensores puede reducir el rendimiento de seguridad al rango de costos "más bajo posible".

Presentó que la plataforma DRIVE Hyperion de NVIDIA ha admitido configuraciones multinivel desde el comienzo de su diseño: la versión básica utiliza una solución simplificada basada en cámaras y radares. Después de más de diez años de producción en masa, el coste de estos dispositivos ha bajado significativamente y los propios sensores ultrasónicos son muy baratos. Para niveles más altos de conducción autónoma, la plataforma se puede superponer con lidar bajo demanda. Dado que el precio de este tipo de sensor sigue bajando, cree que no es inimaginable equipar una pila completa de sensores en modelos producidos en masa en el rango de precios de 40.000 a 50.000 dólares.

Ante los recientes incidentes de seguridad de Waymo en San Francisco y otros lugares, como taxis autónomos que bloquearon colectivamente las intersecciones cuando las señales de las intersecciones fallaron debido a cortes de energía, Wu Xinzhou dijo que Nvidia ha trasladado casos tan extremos a entornos de simulación para realizar deducciones repetidas. A diferencia de Tesla, que tiene una enorme flota de automóviles privados, y Waymo, que ha acumulado casi 200 millones de millas de conducción totalmente autónoma en vías públicas, Nvidia no tiene ventaja en datos de pruebas reales en carretera, por lo que presta más atención a la inversión en infraestructura en "datos sintéticos" y simulación de alta fidelidad.

En términos de estrategia de simulación, NVIDIA adopta principalmente dos métodos. El primero es la "Reconstrucción Neural" (NuRec). Los ingenieros utilizan datos de sensores recopilados por vehículos reales para reconstruir escenas de carreteras tridimensionales realistas, lo que permite al sistema experimentar repetidamente una determinada condición real de la carretera en un entorno virtual. El segundo es la "mejora", es decir, modificar constantemente variables en la escena reconstruida, como ajustar el tiempo, la velocidad y la ubicación de los peatones, generando así una serie de situaciones nuevas con diferencias solo sutiles para observar el comportamiento del sistema en varias condiciones ligeramente cambiantes. Este proceso se denomina internamente "difusificación" del conjunto de datos. Nvidia no solo obtiene videos de grabadoras de conducción de sus socios, sino que también reproduce escenas de eventos públicos, como los atascos encontrados por Waymo, en simulaciones, entrenando al sistema para que aprenda a evitar de manera proactiva patrones de comportamiento similares a las "interferencias colectivas".

Sin embargo, según la visión de Wu Xinzhou, el sistema de conducción autónoma verdaderamente ideal en el futuro no debería depender de interminables datos de pruebas de vehículos reales en carretera para cubrir todos los casos extremos, sino que debería tener la capacidad de "razonar" y derivar estrategias de afrontamiento por analogía a partir de reglas y experiencia limitada. Con este fin, su equipo está desarrollando un nuevo modelo llamado "Vision Language Action", que unifica la percepción visual, la comprensión del lenguaje y las acciones físicas en la misma arquitectura, y utiliza un modelo básico grande que ha sido entrenado con datos a nivel de Internet para brindar a los vehículos capacidades de comprensión y razonamiento más sólidas. Wu Xinzhou comparó esto con los humanos que aprenden a conducir: primero leen un manual de reglas de tránsito y luego practican en la carretera durante veinte horas. La mayoría de los conductores nuevos ya estarán calificados en la carretera y luego continuarán mejorando a través de la experiencia. "Nuestro objetivo es permitir que el modelo haga lo mismo; en el futuro sólo necesitará un libro de reglas y veinte horas de datos de entrenamiento y podrá aprender a conducir", afirmó.

En la pista donde ya están avanzando precursores como Tesla y Waymo, NVIDIA está tratando de acortar la brecha en kilometraje y experiencia a través de una combinación completa de "chip + plataforma + modelo + simulación", y transformarse de un "constructor de infraestructura informática" detrás de escena a un importante fijador de rutas de tecnología de conducción autónoma y estándares de seguridad. Para Jen-Hsun Huang y Xinzhou Wu, esta apuesta por “el momento ChatGPT de la IA en el mundo físico” acaba de cruzar la línea de partida.