La era de la duplicación de voces con inteligencia artificial ha llegado con un nuevo hito. OpenAI, famosa por sus avances en modelos de IA para generar contenido textual, visual y de video, sorprende tras presentar su última innovación: Voice Engine. Esta tecnología revolucionaria es capaz de clonar cualquier voz a partir de tan solo 15 segundos de muestra.
Aunque pueda parecer un avance repentinamente sorprendente, Voice Engine ha estado en desarrollo desde finales de 2022. Inicialmente, OpenAI lo implementó para su API de texto a voz y la voz de su popular aplicación móvil, ChatGPT. No obstante, desde 2023 un selecto grupo de colaboradores ha estado explorando sus posibles aplicaciones, y los resultados han sido realmente asombrosos. Conócelos a continuación.
El tiempo, lo más destacado del sistema de OpenAI
Lo más impresionante radica, sin lugar a dudas, en la eficiencia de Voice Engine. Concretamente, necesita apenas 15 segundos de muestra y un poco de texto para clonar cualquier voz. Pese a que los detalles exactos del modelo no están disponibles, la compañía añade que con un tamaño reducido ya puede generar voces emotivas y realistas. Sin embargo, más allá de lo prometedor, su disponibilidad para el público en general aún está en duda y hasta carece de fecha o momento preciso.
OpenAI ha expresado su deseo de iniciar un diálogo sobre el despliegue responsable de las voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades. Antes de tomar decisiones sobre un posible lanzamiento a gran escala, quiere involucrar a la comunidad en estas discusiones y considerar los resultados de pruebas a pequeña escala.
¿Cuántos modos o funciones tendrá?
En cuanto a los posibles usos, OpenAI ha destacado casos como la asistencia a la lectura. Esta aplicación podría beneficiar tanto a los niños pequeños como a las personas que tienen dificultades para leer. Esto se debe a que les permite escuchar el texto con una voz más natural y amigable.
Así, y a la espera de más detalles, el futuro de Voice Engine parece lleno de posibilidades, pero también plantea importantes preguntas éticas y sociales. A medida que la tecnología avanza, es crucial abordar estas cuestiones para garantizar un desarrollo responsable y beneficioso para todos.
Cabe destacar que no se trata de cualquier cuestión. La necesidad de copiar una voz para luego reproducirla a través de diversas plataformas y para dar todo tipo de mensajes es muy útil, aunque también peligroso en algunas ocasiones. En otras palabras, así como sirve para lo bueno, pueden ocurrir sucesos muy negativos, lo que requiere de control, ciertas limitaciones y sanciones cuando sea necesario. Y para OpenAI eso está claro.
Periodista, comunicador social y especialista en SEO y marketing digital. Me apasiona escribir sobre diferentes temas, nichos, plataformas y tipos de públicos. Así he trabajado en múltiples sitios web, tiendas ecommerce y blogs para cumplir con los requerimientos tanto del buyer persona como del cliente