Imagínate escribir "música dramática de introducción" y escuchar una sinfonía grandiosa, o escribir "pasos tenebrosos" y obtener efectos de sonido de alta calidad. Esa es la promesa de Stable Audio, un modelo de inteligencia artificial de texto a audio anunciado el miércoles por Stability AI que puede sintetizar música o sonidos a partir de descripciones escritas. Pronto, esta tecnología similar podría desafiar a los músicos en sus trabajos.

Si recuerdas, Stability AI es la compañía que ayudó a financiar la creación de Stable Diffusion, un modelo de síntesis de imágenes de difusión latente lanzado en agosto de 2022. No contenta con limitarse a generar imágenes, la compañía se adentró en el ámbito del audio respaldando a Harmonai, un laboratorio de inteligencia artificial que lanzó el generador de música Dance Diffusion en septiembre.
Ahora, Stability y Harmonai quieren ingresar a la producción comercial de audio de inteligencia artificial con Stable Audio. Si juzgamos por las muestras de producción, parece ser una mejora significativa en la calidad de audio en comparación con los generadores de audio de inteligencia artificial que hemos visto anteriormente.
En su página promocional, Stability proporciona ejemplos del modelo de inteligencia artificial en acción con indicaciones como "música épica de tráiler con percusión tribal intensa y metales" y "ritmo de hip hop lofi con chillhop melódico a 85 bpm". También ofrece muestras de efectos de sonido generados utilizando Stable Audio, como la voz de un piloto de aerolínea hablando por un intercomunicador y personas hablando en un restaurante concurrido.
Para entrenar su modelo, Stability se asoció con el proveedor de música de archivo AudioSparx y adquirió una base de datos "que consta de más de 800,000 archivos de audio que contienen música, efectos de sonido y pistas de instrumentos individuales, así como metadatos de texto correspondientes". Después de alimentar al modelo con 19,500 horas de audio, Stable Audio sabe cómo imitar ciertos sonidos que ha escuchado bajo comandos porque los sonidos han sido asociados con descripciones de texto dentro de su red neuronal.
Un diagrama de bloques de la arquitectura de Stable Audio proporcionado por Stability AI. Stable Audio contiene varias partes que funcionan juntas para crear audio personalizado rápidamente.
Una parte reduce el tamaño del archivo de audio de una manera que mantiene sus características importantes al tiempo que elimina el ruido innecesario. Esto hace que el sistema sea más rápido de enseñar y más rápido para crear nuevos archivos de audio. Otra parte utiliza texto (descripciones de metadatos de la música y los sonidos) para ayudar a guiar el tipo de audio que se genera.

Publicidad Para acelerar el proceso, la arquitectura de Audio Estable opera en una representación de audio altamente simplificada y comprimida para reducir el tiempo de inferencia (la cantidad de tiempo que tarda un modelo de aprendizaje automático en generar una salida una vez que se le ha dado una entrada). Según Stability AI, Audio Estable puede renderizar 95 segundos de audio estéreo a una frecuencia de muestreo de 44.1 kHz (a menudo llamada "calidad de CD") en menos de un segundo en una GPU Nvidia A100. La A100 es una GPU potente diseñada para centros de datos y es mucho más capaz que una GPU de juegos de escritorio típica.
Como se mencionó, Audio Estable no es el primer generador de música basado en técnicas de difusión latente. En diciembre pasado, cubrimos Riffusion, una versión hobbyista de una versión de audio de Stable Diffusion, aunque sus generaciones resultantes estaban lejos de la calidad de las muestras de Audio Estable. En enero, Google lanzó MusicLM, un generador de música basado en IA para audio de 24 kHz, y Meta lanzó un conjunto de herramientas de audio de código abierto (incluido un generador de música a partir de texto) llamado AudioCraft en agosto. Ahora, con audio estéreo de 44.1 kHz, Stable Diffusion está aumentando la apuesta.
Stability dice que Audio Estable estará disponible en un nivel gratuito y un plan Pro mensual de $12. Con la opción gratuita, los usuarios pueden generar hasta 20 pistas al mes, cada una con una duración máxima de 20 segundos. El plan Pro amplía estos límites, permitiendo 500 generaciones de pistas por mes y longitudes de pista de hasta 90 segundos. Se espera que las futuras versiones de Stability incluyan modelos de código abierto basados en la arquitectura de Audio Estable, así como código de entrenamiento para aquellos interesados en desarrollar modelos de generación de audio.
Como está ahora, parece que podríamos estar al borde de la música generada por IA con calidad de producción gracias a Audio Estable, considerando su fidelidad de audio. ¿Estarán felices los músicos si son reemplazados por modelos de IA? Probablemente no, si la historia nos ha mostrado algo con las protestas de IA en el campo de las artes visuales. Por ahora, un ser humano puede superar fácilmente cualquier cosa que la IA pueda generar, pero eso puede cambiar pronto. De cualquier manera, el audio generado por IA puede convertirse en otra herramienta en el arsenal de producción de audio de un profesional.