Investigadores de Penn State han demostrado un nuevo método de monitoreo remoto que utiliza pequeñas vibraciones producidas por auriculares de teléfonos celulares para reconstruir conversaciones telefónicas. La tecnología, conocida como escucha inalámbrica, utiliza sensores de radar de ondas milimétricas para detectar e interpretar estas pequeñas vibraciones a distancias de hasta diez pies (unos 10 metros).
El equipo colocó un dispositivo de radar de ondas milimétricas a unos metros de un teléfono inteligente, utilizando tecnología similar a la utilizada en vehículos autónomos y detectores de movimiento avanzados. Cuando la voz se reproduce a través de los auriculares del teléfono, el radar detecta vibraciones en la superficie causadas por la señal de audio.
Estas vibraciones son imperceptibles para los humanos o los micrófonos cercanos, pero impregnan toda la estructura del dispositivo. Los datos de medición del radar se preprocesan cuidadosamente para reducir el ruido ambiental y del hardware y luego se analizan mediante técnicas de aprendizaje automático.
Los sistemas de reconocimiento de voz estándar están diseñados para manejar audio claro y de alta calidad, pero no funcionan bien cuando se aplican directamente a datos de radar ruidosos. Para resolver este problema, los investigadores mejoraron el modelo de reconocimiento de voz a gran escala de código abierto Whisper utilizando un método llamado adaptación de bajo rango.

Al volver a entrenar solo el 1% de los parámetros del modelo, lo especializaron para procesar señales de radar ruidosas, convirtiendo datos de medición de vibraciones en texto con una precisión de hasta el 60% para vocabularios de hasta 10.000 palabras. Si bien esta precisión aún es limitada, incluso la transcripción parcial o la recuperación de palabras clave pueden resultar útiles en escenarios de escuchas clandestinas del mundo real.
Este resultado se basa en investigaciones anteriores realizadas por el mismo equipo. El estudio del equipo de 2022 mostró que los sensores de radar pueden identificar hasta 10 palabras, letras o números predeterminados con aproximadamente un 83% de precisión cuando el sensor está a un pie de un teléfono. El nuevo método amplía esta investigación, extrayendo con éxito frases más largas y partes de conversaciones desde distancias mayores.

Suryoday Basak presentó su sistema de escucha inalámbrica en la 18ª Conferencia de la Asociación de Maquinaria de Computación sobre Seguridad y Privacidad en Redes Inalámbricas y Móviles.
Los investigadores señalan que, al igual que la lectura de labios, las pistas de contexto pueden mejorar aún más la interpretación de transcripciones parcialmente precisas, lo que significa que incluso una salida errónea o incompleta puede ser suficiente para discernir la esencia de una discusión delicada.
Los autores enfatizan que la configuración de su laboratorio se utiliza únicamente con fines de investigación y sensibilización, con el objetivo de predecir posibles ataques futuros por parte de actores maliciosos que utilizan dispositivos de radar en miniatura o encubiertos. Aconsejan a los usuarios que sean conscientes de este riesgo emergente para la privacidad, especialmente cuando se discuten temas delicados en un entorno donde puede existir dicha vigilancia.
La investigación, financiada por la National Science Foundation, se publica en las Actas de la 18ª Conferencia ACM sobre Seguridad y Privacidad en Redes Inalámbricas y Móviles.