OpenAI lanzó hoy tres nuevos modelos de voz en tiempo real, con el objetivo de "desbloquear una nueva generación de formularios de aplicación de voz" para los desarrolladores. Estos tres modelos de inteligencia del habla se centran en diferentes necesidades de escenarios, como el diálogo de razonamiento, la traducción en tiempo real y la transcripción en tiempo real.

Según información publicada por OpenAI, la nueva serie incluye tres modelos: GPT‑Realtime‑2, GPT‑Realtime‑Translate y GPT‑Realtime‑Whisper. Entre ellos, GPT‑Realtime‑2 se posiciona como el primer modelo de voz con capacidades de razonamiento de nivel GPT‑5, que puede manejar mejor solicitudes complejas y continuar avanzando en las conversaciones de una manera más natural. Según la introducción oficial, este modelo está especialmente diseñado para la interacción de voz en tiempo real. Cuando los usuarios hacen preguntas o dan instrucciones, pueden razonar mientras mantienen una conversación coherente. Al mismo tiempo, también pueden llamar a herramientas, manejar las interrupciones y correcciones de los usuarios y dar respuestas más apropiadas en función de la situación actual.

El segundo modelo, GPT-Realtime-Translate, se centra en capacidades de traducción en tiempo real, admite "más de 70 idiomas de entrada y 13 idiomas de salida" y trata de mantenerse al día con la velocidad de habla del hablante durante el proceso de traducción. Esta característica significa que en escenarios como llamadas en varios idiomas, reuniones o transmisiones en vivo, se espera que este modelo brinde una experiencia más cercana a la "interpretación simultánea".

El tercer GPT‑Realtime‑Whisper es un modelo de transcripción de voz en tiempo real que se centra en capacidades de conversión de voz a texto de baja latencia. OpenAI dijo que el modelo puede completar la transcripción instantáneamente mientras el orador habla, lo que hace que varios productos en tiempo real parezcan más rápidos, con mayor capacidad de respuesta y más naturales. Desde subtítulos en vivo "hablar mientras se habla" hasta registros de reuniones que pueden seguir el ritmo de las discusiones, estos escenarios de aplicación se consideran la dirección principal de GPT-Realtime-Whisper.

En términos de métodos de acceso y precios, OpenAI dijo que los tres nuevos modelos de voz se han incluido en su sistema Realtime API. GPT-Realtime-2 tiene un precio de 32 dólares por 1 millón de tokens de entrada de audio (0,40 dólares por tokens de entrada almacenados en caché) y 64 dólares por 1 millón de tokens de salida de audio. GPT-Realtime-Translate tiene un precio de 0,034 dólares por minuto, mientras que GPT-Realtime-Whisper tiene un precio de 0,017 dólares por minuto.

OpenAI dice que los desarrolladores pueden probar directamente estos nuevos modelos de voz en tiempo real a través de Playground. Si ya tiene Codex instalado, simplemente haga clic en Enviar en el mensaje designado para agregar GPT‑Realtime‑2 a una aplicación existente o crear rápidamente una nueva aplicación basada en el modelo. El funcionario también presentó los detalles técnicos de estos tres modelos de voz en su sitio web y cómo algunas empresas asociadas los han utilizado en productos reales.

En el contexto de la continua evolución de la IA generativa hacia la multimodalidad y la interacción en tiempo real, los tres modelos de voz lanzados por OpenAI se consideran otro diseño importante en la dirección de la "inteligencia de voz". Con la integración unificada de capacidades de razonamiento, traducción y transcripción, los desarrolladores podrán brindar más fácilmente a los usuarios una experiencia de inteligencia artificial de voz que esté “disponible en un abrir y cerrar de ojos”. Desde herramientas de asistencia hasta aplicaciones de productividad, pasando por servicios de accesibilidad y creación de contenidos, se espera que marque el comienzo de una nueva ronda de exploración e innovación.