La mayoría de los cambios de OpenAI en ChatGPT involucran las capacidades del robot de IA: las preguntas que puede responder, la información a la que puede acceder y modelos subyacentes mejorados. Esta vez, sin embargo, modifica la forma en que usa ChatGPT. La compañía está lanzando una nueva versión de su servicio que le permite avisar a un robot de inteligencia artificial no solo escribiendo oraciones en un cuadro de texto, sino también hablando en voz alta o cargando una imagen.
Según OpenAI, las nuevas funciones se implementarán para los usuarios que paguen por ChatGPT dentro de las próximas dos semanas, y otros usuarios también obtendrán las nuevas funciones "poco después".
La parte del chat de voz te resulta muy familiar: haces clic en un botón y dices tu pregunta, ChatGPT la convierte en texto y la introduce en un modelo de lenguaje grande, que luego obtiene la respuesta, la convierte en voz y dice la respuesta en voz alta. Es como hablar con Alexa o el Asistente de Google, sólo que OpenAI espera que las respuestas sean mejores gracias a las mejoras en la tecnología subyacente. La mayoría de los asistentes virtuales parecen confiar en LLM para su transformación, pero OpenAI está liderando el camino.
El excelente modelo Whisper de OpenAI hace gran parte del trabajo de conversión de voz a texto, y la compañía está lanzando un nuevo modelo de conversión de texto a voz que, según dice, puede "generar audio similar al humano a partir de texto y unos pocos segundos de muestras de voz". Puedes elegir la voz de ChatGPT entre cinco opciones, pero OpenAI parece pensar que el modelo tiene potencial para mucho más que eso. Por ejemplo, OpenAI está trabajando con Spotify para traducir podcasts a otros idiomas manteniendo la voz del podcast. Hay muchos usos interesantes para el habla sintetizada y OpenAI podría convertirse en una parte importante de la industria.
Pero el hecho de que se necesiten sólo unos segundos de audio para crear una voz sintética capaz también abre la puerta a una variedad de casos de uso problemáticos. "Estas características también conllevan nuevos riesgos, como la posibilidad de que actores maliciosos se hagan pasar por figuras públicas o cometan fraude. Es por esta razón que OpenAI no está utilizando este modelo de manera amplia: estará más estrictamente controlado y limitado a casos de uso y asociaciones específicos", dijo la compañía en una publicación de blog anunciando las nuevas características.
Mientras tanto, la búsqueda de imágenes es un poco como Google Lens. Simplemente toma una foto de lo que te interesa y ChatGPT descubrirá cuál es tu problema y responderá en consecuencia. También puede utilizar las herramientas de dibujo de la aplicación para expresar sus preguntas con claridad, o hablar o escribir preguntas basadas en imágenes. Aquí es donde ayuda la naturaleza de ida y vuelta de ChatGPT: puede avisar al bot y refinar su respuesta al mismo tiempo, en lugar de buscar primero y luego buscar nuevamente después de obtener la respuesta incorrecta. (Esto es muy similar a lo que hace Google con la búsqueda multimodal).
Evidentemente, la búsqueda de imágenes también tiene sus problemas potenciales. Una es lo que podría suceder cuando solicitas a un chatbot una persona: OpenAI dice que limita intencionalmente la "capacidad de ChatGPT para analizar y declarar directamente a las personas" debido a preocupaciones de precisión y privacidad. Eso significa que una de las visiones más de ciencia ficción de la inteligencia artificial (la capacidad de mirar a una persona y decir: "¿Quién es ese?") no se hará realidad en el corto plazo. Y tal vez eso sea algo bueno.
Casi un año después del lanzamiento de ChatGPT por primera vez, parece que OpenAI todavía está tratando de descubrir cómo proporcionar más funciones y capacidades para su bot sin introducir nuevos problemas e inconvenientes. En estas versiones, la compañía ha intentado conseguirlo limitando deliberadamente la funcionalidad de sus nuevos modelos. Pero este enfoque no funcionará para siempre. A medida que más y más personas utilicen el control por voz y la búsqueda de imágenes, y que ChatGPT se convierta en un asistente virtual útil y verdaderamente multimodal, será cada vez más difícil mantener las barreras de seguridad.