Amazon lanza NovaSonic, una nueva generación de modelo de voz con IA generativa, que marca un gran avance en el campo de la voz con inteligencia artificial.Este modelo innovador puede procesar de forma nativa la entrada de voz y generar una salida de voz natural y fluida. En términos de indicadores básicos de rendimiento como velocidad, precisión del reconocimiento de voz y calidad del diálogo, ha alcanzado un nivel comparable a los modelos de voz de vanguardia de gigantes tecnológicos como OpenAI y Google.

NovaSonic brinda servicios a través de la plataforma de desarrollador Amazon Bedrock y utiliza una innovadora interfaz API de transmisión bidireccional para brindar un sólido soporte para el desarrollo de aplicaciones de IA a nivel empresarial.Amazon enfatizó específicamente que este modelo tiene importantes ventajas en términos de rentabilidad y su precio es aproximadamente un 80% más barato que el GPT-4o de OpenAI. Se puede considerar la solución de voz de IA más rentable del mercado.

En comparación con los modelos de voz de IA de la competencia, NovaSonic se destaca en enrutar las solicitudes de los usuarios a diferentes API. Esta capacidad permite a NovaSonic saber cuándo necesita obtener información en tiempo real de Internet, analizar fuentes de datos patentadas o tomar medidas en aplicaciones externas y utilizar las herramientas adecuadas para completar la tarea.

En una conversación bidireccional, NovaSonic espera el "momento adecuado" para hablar, teniendo en cuenta las pausas e interrupciones del orador.Además, NovaSonic también puede generar registros de texto para el discurso de los usuarios, y los desarrolladores pueden utilizar estos textos para diversos escenarios de aplicaciones.

Rohit Prasad, científico jefe del departamento AGI de Amazon, reveló que algunas de las tecnologías de NovaSonic se han utilizado en el asistente digital actualizado Alexa+. El lanzamiento de este modelo es un paso importante en la estrategia de Amazon para construir inteligencia artificial general (AGI). En el futuro, también lanzará modelos de IA que admitan la comprensión multimodal, abarcando imágenes, vídeos y otros datos de percepción del mundo físico.