DeepL, una empresa de inteligencia artificial famosa por sus herramientas de traducción de texto, lanzó hoy una cartera de productos de traducción de voz a voz para ingresar al mercado de traducción de voz en tiempo real, cubriendo una variedad de escenarios como reuniones en línea, conversaciones móviles y web, y comunicación grupal que involucra a empleados de primera línea a través de aplicaciones personalizadas. Al mismo tiempo, DeepL también lanzó una API para desarrolladores y empresas para respaldar soluciones de traducción de voz personalizadas para centros de llamadas y otras empresas basadas en su tecnología.

El director ejecutivo de DeepL, Jarek Kutylowski, dijo en una entrevista que después de años de centrarse en la traducción de textos, la voz era el "siguiente paso natural" de la empresa. Destacó que DeepL ha recorrido un largo camino en la traducción de textos y documentos, pero en el campo de la traducción de voz en tiempo real "todavía falta un producto verdaderamente sobresaliente", razón por la cual la empresa decidió ingresar.
Kutlovsky señaló que la principal dificultad a la hora de crear un producto de traducción en tiempo real es cómo lograr un equilibrio entre reducir la latencia y mantener la precisión. El llamado retraso se refiere a la diferencia de tiempo entre el momento en que el usuario habla y el momento en que se reproduce la voz traducida. En escenarios de conferencia y diálogo, cuanto menor es la diferencia, más cercana es la experiencia de comunicación del usuario al "diálogo simultáneo".
En esta versión, DeepL lanza complementos para Zoom y Microsoft Teams, que permiten a los oyentes en reuniones remotas escuchar a todas las partes hablando en sus idiomas nativos, escuchar voces traducidas en tiempo real o leer subtítulos traducidos en tiempo real en la pantalla. El programa aún se encuentra en las primeras pruebas y DeepL está invitando a las empresas a unirse a una lista de espera para ser las primeras en probar la función. Además, la empresa también ofrece productos de conversación para terminales móviles y páginas web, lo que permite a los usuarios comunicarse en varios idiomas de forma presencial o remota.
Para escenarios grupales en línea o sin conexión de varias personas, como capacitaciones y seminarios, DeepL permite a los participantes unirse a la misma sesión escaneando el código QR, y todos pueden recibir contenido traducido en el idioma correspondiente en su propio dispositivo. DeepL dijo que su tecnología de voz a voz también puede aprender y adaptar vocabulario personalizado, como términos verticales de la industria, nombres de empresas y nombres personales, para mejorar su uso en escenarios profesionales.
Kutlovsky cree que la IA está cambiando la forma de la industria de servicio al cliente en los próximos años. Una capa de traducción de alta calidad puede ayudar a las empresas a seguir proporcionando soporte de servicios multilingües en un mercado donde faltan talentos en idiomas locales y los costos de contratación son altos. Bajo esta visión, DeepL espera que su tecnología de voz no solo sirva para escenarios de conferencias, sino que también se convierta en una de las infraestructuras lingüísticas básicas para los centros de atención al cliente y las empresas globales.
En cuanto a la hoja de ruta técnica, DeepL dijo que sus productos actuales están impulsados por una pila tecnológica completa de "voz a voz" de desarrollo propio, pero en esta etapa todavía utiliza el proceso de tres pasos de "voz a texto - traducción de texto - texto a voz". La empresa cree que su enfoque a largo plazo en la traducción de textos le otorga una ventaja en la calidad general de la traducción. En el futuro, DeepL planea desarrollar un modelo de traducción de voz de extremo a extremo que omita los pasos intermedios del texto para lograr mayores mejoras en latencia y naturalidad.
En el campo de la voz y la traducción, DeepL se enfrenta a la competencia de múltiples empresas emergentes. Entre ellos, Sanas recaudó 65 millones de dólares de Quadrille Capital y Teleperformance el año pasado. Se centra en tecnología que modifica el acento de los hablantes en tiempo real, principalmente para agentes de call center. Camb.AI, con sede en Dubai, ofrece servicios de traducción y síntesis de voz para empresas de medios y entretenimiento, ayudando a los clientes a completar el doblaje y la localización de contenido a gran escala. Palabra, con inversión del fondo Seven Seven Six del cofundador de Reddit, Alexis Ohanian, construye un motor de traducción de voz en tiempo real que enfatiza el intento de retener las características de voz originales del hablante durante el proceso de traducción, formando una relación competitiva más directa con las capacidades que está construyendo DeepL.
Después de establecer un punto de apoyo en el mercado de traducción de textos, DeepL está tratando de ampliar sus fronteras a través de productos de voz, extendiendo la tecnología a la colaboración en conferencias, el servicio al cliente y escenarios de operaciones de primera línea. A medida que más empresas buscan utilizar la IA para reducir los costos de comunicación entre idiomas, se espera que la traducción de voz en tiempo real se convierta en el foco de una nueva ronda de competencia, y DeepL está acelerando su implementación en esta vía.