El "Proyecto Gutenberg" utiliza tecnología neuronal de conversión de texto a voz para lanzar 5.000 audiolibros gratuitos

Los audiolibros han ganado popularidad en los últimos años debido a su legibilidad, pero grabar audiolibros es difícil y costoso. Recientemente, los investigadores demostraron un método automatizado que utiliza texto a voz sintetizado que resuelve muchos de los problemas que enfrenta la tecnología y permite a los usuarios comunes producir audiolibros. Ahora los lectores pueden escuchar miles de audiolibros literarios clásicos y otros materiales de dominio público de forma gratuita a través del Proyecto Gutenberg. Investigadores de Microsoft y MIT crearon la colección escaneando los libros utilizando un software de conversión de texto a voz.

Estos textos incluyen obras de Shakespeare, Agatha Christie, Jane Austen, Leonardo da Vinci y otros. Los usuarios pueden escuchar en InternetArchive, Spotify, ApplePodcasts y GooglePodcasts:

https://marhamilresearch4.blob.core.Windows.net/gutenberg-public/Website/index.html

El código utilizado para crear la colección de audiolibros está disponible en GitHub:

https://github.com/microsoft/SynapseML

Apple comenzó a vender audiolibros en enero de este año utilizando tecnología automática de conversión de texto a voz. Sin embargo, el intento ha sido recibido con escepticismo por parte del establishment literario, que critica los objetivos comerciales de Apple, y de los actores de doblaje que brindan capacitación para la inteligencia artificial de la compañía. El enfoque de Gutenberg puede provocar reacciones encontradas porque es de código abierto y no tiene fines de lucro.

El Proyecto Gutenberg ha pasado décadas construyendo un depósito de literatura gratuita en formato de texto que está ampliamente disponible de forma gratuita, pero los audiolibros pueden hacer que este material sea más accesible. Los audiolibros son útiles para lectores que conducen, realizan múltiples tareas, tienen discapacidad visual, aprenden a leer o aprenden un nuevo idioma.

Producir audiolibros utilizando métodos tradicionales implica gastar tiempo y dinero en que alguien lea el libro completo. No es rentable grabar manualmente una versión en audio de cada libro que vale la pena leer. La tecnología de conversión de texto a voz encajaba mejor con el Proyecto Gutenberg. Sin embargo, los investigadores enfrentan múltiples obstáculos con sus herramientas de aprendizaje automático.

La primera y más importante cuestión es determinar qué libros digitales puede analizar el software. El Proyecto Gutenberg recopila materiales en una variedad de formatos y muchos de los archivos contienen errores o escaneos imperfectos. Entonces, los investigadores se centraron en los libros almacenados en formato de archivo HTML y crearon una herramienta (en la foto de arriba) para descubrir qué elementos mostraban un formato similar.

Otro problema que abordaron los investigadores fue garantizar que el sistema supiera qué texto leer o ignorar. Implica componentes como índices, números de páginas, notas a pie de página, tablas y otro material superfluo.

Además, el resultado debe sonar lo suficientemente parecido al habla humana natural. Los investigadores se centraron en las expresiones de voz que funcionan mejor para la narración y la no ficción, pero los usuarios también pueden modificar el software para experimentar con lecturas dramáticas.

Los investigadores planean realizar una demostración que permitirá a los usuarios generar audiolibros con sus propias voces. Después de grabar algunas frases para entrenar el algoritmo, cada participante podía escuchar una muestra antes de que el software leyera el libro completo. También recibirán una copia del audiolibro por correo electrónico. Los usuarios pueden elegir entre voces sintetizadas para personalizar cada audiolibro.

acceso:

Alibaba Cloud: vales universales de hasta 1888 yuanes disponibles de inmediato