Según informes de los medios,OpenAI está desarrollando un nuevo modelo de voz diseñado para hacer que las conversaciones de los usuarios con ChatGPT sean más naturales y fluidas. El principal avance de esta tecnología es que cuando el usuario interrumpe el sistema mientras la IA está hablando, la IA puede ajustar la respuesta en tiempo real en lugar de detenerse repentinamente como ahora.

Actualmente, el modo de voz avanzado de ChatGPT utiliza un mecanismo de diálogo por turnos. El usuario debe terminar de hablar antes de que la IA procese la voz y genere una respuesta. Si el usuario inserta una respuesta breve como "ok" o "mm-hm" cuando la IA está hablando, el sistema normalmente se detendrá directamente y no podrá continuar la comunicación como una conversación normal.

Para resolver este problema,El BiDi (modelo de voz bidireccional) desarrollado por OpenAI procesa continuamente la entrada de voz del hablante, por lo que puede ajustar inmediatamente su respuesta cuando se le interrumpe.Por el contrario, una vez que los modelos de voz existentes comienzan a generar respuestas, el contenido de salida es básicamente fijo y no puede cambiar según las nuevas entradas.

Esta tecnología aún se encuentra en etapa de desarrollo. Según personas familiarizadas con el asunto, el modelo prototipo era propenso a fallas y, a veces, incluso emitía sonidos poco naturales después de varios minutos de conversación sostenida. Los investigadores de OpenAI originalmente esperaban lanzar BiDi en el primer trimestre de este año, pero el último lanzamiento puede posponerse hasta el segundo trimestre o más tarde.

OpenAI cree que si el modelo de voz puede acercarse al modelo de texto en rendimiento, el alcance del uso de la IA se ampliará aún más, porque la mayoría de las personas están más acostumbradas a la comunicación de voz con la IA que a ingresar texto. El modelo BiDi puede resultar particularmente valioso en escenarios de servicio al cliente.

Por ejemplo, cuando un cliente habla con el servicio de atención al cliente de IA de un minorista, si el cliente decide temporalmente cambiar el producto en lugar de devolverlo durante la conversación, el modelo BiDi puede, en teoría, permitir que el servicio de atención al cliente de IA ajuste la conversación sin problemas sin paradas repentinas ni confusión.

Personas familiarizadas con el asunto también revelaron que el modelo BiDi también es más flexible al llamar a herramientas y aplicaciones externas.OpenAI declaró anteriormente que la compañía planea mejorar el modelo de voz para un futuro dispositivo de inteligencia artificial que interactúe principalmente a través de la voz, y está considerando desarrollar un altavoz inteligente que pueda consultar correos electrónicos o reservar servicios mediante comandos de voz.