Según noticias del 21 de abril, un equipo de la Universidad de Washington en Estados Unidos demostró un nuevo prototipo de auricular llamado VueBuds. Incorpora una cámara en miniatura en unos auriculares inalámbricos verdaderos convencionales y los combina con un modelo de lenguaje visual (VLM). Puede describir la escena en el campo de visión del usuario en tiempo real, identificar objetos y traducirlos mediante interacción de voz. Los investigadores lo describen como "una versión móvil, sólo de voz, de la búsqueda inversa de imágenes".

El prototipo de VueBuds se basa en los auriculares inalámbricos con cancelación de ruido WF-1000XM3 de Sony. En la carcasa de los auriculares hay una cámara en blanco y negro del tamaño de un grano de arroz. El procesamiento local o de bajo ancho de banda se realiza a través del modelo de lenguaje visual incorporado. Los usuarios sólo necesitan hacer preguntas para obtener explicaciones y traducciones de descripciones de voz, nombres de objetos o contenido de texto de la escena que tienen delante. El equipo de investigación publicó un artículo en CHI 2026, una importante conferencia en el campo de la interacción persona-computadora, detallando el diseño y los resultados experimentales de este sistema.

Uno de los líderes del proyecto, Shyam Gollakota, profesor de la Escuela Paul G. Allen de Ciencias de la Computación e Ingeniería de la Universidad de Washington, dijo que el equipo aprendió plenamente de las lecciones de Google Glass durante el diseño; este último fue ridiculizado por el público como "Glassholes" debido a su apariencia abrupta y su enorme controversia sobre la privacidad, y finalmente fracasó. Gollakota señaló que, en comparación con las gafas, a muchas personas no les gusta añadir dispositivos visibles en sus caras, y los auriculares ya son una forma de uso muy popular y socialmente aceptada. Por lo tanto, se espera que "ocultar" funciones visuales en los auriculares logre un mejor equilibrio entre usabilidad y privacidad.

Desde el punto de vista del hardware, VueBuds utiliza una cámara en blanco y negro de baja resolución y una transmisión de bajo ancho de banda para controlar el consumo de energía por debajo de 5 mW y se apaga automáticamente cuando no está en uso para ahorrar energía. Los investigadores dijeron que en una prueba que involucró a 90 usuarios y 17 tareas visuales de preguntas y respuestas, la calidad de las respuestas de VueBuds fue comparable a la de las gafas inteligentes Ray-Ban Meta con cámaras integradas y modelos grandes, lo que muestra el potencial de incorporar capacidades de modelo de lenguaje visual en rápido desarrollo a la popular forma de dispositivo de auriculares.

En el vídeo de demostración, un hombre que llevaba VueBuds se paró en la cocina de un apartamento y pidió: "Por favor, describe la escena frente a mí". Aproximadamente un segundo después, una IA con un tono relajado e imitando una voz femenina humana salió del auricular y respondió: "Veo un área de cocina con una ventana que entra mucha luz. Hay algunas botellas y un libro en la encimera. La ventana tiene persianas y un fregadero a la izquierda". Más tarde, cuando miró la portada de un disco y preguntó el nombre del álbum, el sistema rápidamente reconoció que era "Abbey" de los Beatles. Portada del álbum "Road".

Según los datos experimentales revelados en el artículo, en una prueba con 16 participantes, VueBuds logró una precisión de aproximadamente el 83 % en tareas de reconocimiento y traducción de objetos, y una precisión de aproximadamente el 93 % en tareas como la identificación de títulos de libros y autores. Por ejemplo, el equipo de investigación dijo que en el futuro, se espera que los usuarios utilicen este sistema para leer cómics coreanos que aún no han sido traducidos, o pedir platos ocultos que "sólo están disponibles en el menú chino" en un restaurante chino, sin estar limitados por sus propias habilidades lingüísticas.

En respuesta a la pregunta común "si las cámaras de los auriculares están ubicadas en ambos lados de la cara, ¿la propia cabeza del usuario bloqueará la vista?" Los investigadores explicaron que VueBuds se basa en el principio de paralaje binocular humano y utiliza los diferentes ángulos de visión de las dos cámaras para realizar una fusión de "visión estereoscópica", ganando así la capacidad de comprender la escena que se encuentra delante. Sin embargo, debido a que actualmente solo admite imágenes en blanco y negro, VueBuds no puede responder preguntas relacionadas con el color; La navegación y la traducción de alta precisión en escenas complejas aún requieren cámaras en color de mayor resolución y una mayor potencia informática.

Las limitaciones de potencia y potencia informática también significan que VueBuds actualmente no puede recopilar y procesar transmisiones de video de forma continua y con un gran ancho de banda, y solo es adecuado para su uso de manera intermitente de "fotografía + preguntas y respuestas". A pesar de esto, el equipo de investigación cree que su equilibrio entre consumo de energía, volumen y velocidad de respuesta es suficiente para demostrar la viabilidad de esta forma como "plataforma de inteligencia visual" y proporcionar una nueva dirección para la expansión funcional de los futuros dispositivos de auriculares.

Al mismo tiempo, los riesgos de privacidad y seguridad también se han convertido en temas inevitables. El artículo señala que hace unos años, una empresa propuso una aplicación que podía "identificar los nombres de extraños tomando una foto". En aquel momento, la respuesta irónica popular en Internet fue: "En ese caso, las mujeres morirán por esto". VueBuds sólo proporciona medidas de seguridad limitadas en esta etapa, como la pequeña "luz indicadora de trabajo" en los auriculares, pero los observadores a menudo no se dan cuenta de que un par de auriculares están capturando imágenes. Combinado con la recopilación de audio, la conexión Bluetooth y los servicios de reconocimiento facial de terceros, una vez que se abusa de este tipo de dispositivo, puede representar una grave amenaza a la privacidad que "la baja definición sigue siendo fatal".

El artículo señala que si las autoridades reguladoras pueden formular e implementar reglas efectivas para garantizar que no se violen la seguridad pública y la privacidad personal, se espera que tales dispositivos de "lectura" brinden una comodidad significativa a las personas con discapacidad visual y otros grupos, mejorando en gran medida su calidad de vida y libertad en viajes, estudios, entretenimiento, etc. En el futuro, puede dar lugar a una nueva generación de productos de auriculares inteligentes "oíbles y visibles".