Google anunció el lanzamiento de un nuevo modelo de conversión de texto a voz, Gemini‑TTS, en su serie Gemini 3.1, que se describe oficialmente como "la solución de conversión de texto a voz más expresiva hasta la fecha". El nuevo modelo puede generar un habla de alta fidelidad con sonido natural y al mismo tiempo permite a los desarrolladores controlar la emoción, el ritmo y el estilo del habla a través de indicaciones, como ajustar con precisión el tono, las pausas y los cambios emocionales en la narración o el diálogo.

En términos de soporte multilingüe, Gemini-TTS cubre alrededor de 70 idiomas, incluidos chino (mandarín), inglés, español, alemán, japonés y otros idiomas principales. El modelo puede detectar automáticamente el idioma del texto ingresado y generar el discurso correspondiente sin marcar manualmente el tipo de idioma. Esta capacidad permite a los desarrolladores y empresas utilizar un conjunto unificado de API para proporcionar contenido de voz multilingüe a usuarios globales en escenarios como audiolibros, podcasts, asistentes de voz, robots de servicio al cliente y aplicaciones educativas.

Google también enfatizó que Gemini-TTS colabora con otros modelos de audio de la serie Gemini 3.1 (como Gemini 3.1 Flash Live) para mejorar aún más las capacidades de la "experiencia de voz en tiempo real". En el diálogo en tiempo real, la traducción de voz y la interacción multimodal, el sistema puede mantener una baja latencia mientras controla con precisión la salida de voz a través de indicaciones de texto y marcadores de audio, lo que permite a los agentes de IA estar más cerca de la interacción natural de la voz humana en escenarios como llamadas telefónicas, reuniones y navegación.