Cómo generar sonidos a partir de texto usando inteligencia artificial

La herramienta está siendo desarrollada por un equipo de Meta y la Universidad Hebrea de Jerusalem

La Inteligencia Artificial está cobrando mayor importancia en gran variedad de actividades relacionadas con la producción de contenido. A las IAs que crean imágenes basadas en audio se ha sumado las que crean video, como la desarrollada por Meta. Sin embargo, también se ha creado una que tiene la capacidad de generar audio a partir de indicaciones de texto.

Prof. Yossi Adi
Prof. Yossi Adi

El nuevo programa fue creado por investigadores de Meta en conjunto con Yossi Adi, profesor de la Escuela de Ciencias de la Computación de la Universidad Hebrea de Jerusalem, como parte de un proyecto que genera, partiendo desde cero y solo con descripciones de texto, muestras de audio de algunos segundos de duración. Un inicio humilde para una herramienta que puede ser útil en el futuro.

Felix Kreuk, investigador en Meta, publicó un video en Twitter que presentó el pequeño resultado de la creación de esta Inteligencia Artificial a la que se puso a prueba con indicaciones como “silbando con viento”, “hombre hablando con muchas personas aplaudiendo en el fondo”, “hombre hablando seguido por otro hombre hablando de fondo mientras suena el motor de una motocicleta” y “hombre hablando mientras escribe en un teclado”.

Prueba de AudioGen, la IA que puede generar sonidos a partir de textos

Según la publicación, AudioGen sintetiza audio de manera condicionada por un texto. “opera sobre representaciones discretas aprendidas de la forma de onda sin procesar”, indicó Kreuk. Además, agregó que esta Inteligencia Artificial “puede generar audio condicionado a texto, continuar con un mensaje de audio existente o ambos”.

El investigador del proyecto también añadió que las pruebas que se hacen con la Inteligencia Artificial incluyen mezclas de audio durante el procesamiento de la información y se utilizan textos guía sin clasificadores para mejorar su respuesta.

Estructura de Audiogen
Estructura de Audiogen

El documento resultado de la investigación de Meta y la Universidad Hebrea de Jerusalem indica que una de las limitantes del modelo actual de AudioGen es que al momento de solicitar el audio de un hombre hablando, el resultado es ininteligible y no se puede distinguir una sola palabra.

Una posible solución a este inconveniente podría ser el uso de más información relacionada con discursos, aumentar la capacidad de recepción de la palabra o por medio de más características dirigidas a ese fin.

Sin embargo, también tiene la capacidad para superar otros inconvenientes generados a partir de la interacción con audio, como distinguir diferentes tipos de sonidos y separarlos en pistas de audio distintas (útil para edición de audio con interferencia o mucho ruido del ambiente).

Además, gracias a su capacidad para aprender en base a la experiencia, la inteligencia Artificial de Meta y la Universidad Hebrea ya tiene la capacidad para genera audio sin usar la base de datos de entrenamiento que se le otorgó al inicio del proceso de prueba, lo que indica una mejora progresiva de sus habilidades, aunque los audios resultantes de los pedidos realizados en base a texto tengan una duración de apenas unos segundos.

Aunque AudioGen se mantiene en fase de prueba, se sabe que los investigadores han utilizado “diez conjuntos de datos de audio y etiquetas coincidentes”, lo que quiere decir que la Inteligencia Artificial sigue aprendiendo en base a la experiencia, así que los productos de su procesamiento solo pueden mejorar.

Por otro lado, las personas involucradas dentro del proyecto tienen la intención de poner la Inteligencia Artificial a disposición del público, al igual que difundir el código de la herramienta para que otras personas realicen pruebas en el mismo.

Fuente: Infobae