Nel 2023, l’intelligenza artificiale rivoluzionerà il suono tramite le onde sonore generative, inaugurando l’era del suono

Il campo della produzione audio si sta evolvendo rapidamente e il lavoro incentrato su Computer Vision (CV) e Natural Language Processing (NLP) è aumentato in modo significativo nell’anno precedente. Ciò ha spinto gli studiosi di tutto il mondo a considerare quali modelli linguistici di grandi dimensioni (LLM) e deep learning potrebbero contribuire all’argomento. Gli ultimi modelli audio che sono stati recentemente rilasciati saranno discussi in questo articolo insieme a come stanno facilitando lo studio futuro in questo campo.


Il primo modello si chiama MusicLM ed è stato creato dagli scienziati di Google e dell’IRCAM-Sorbonne Universite. La musica creata da questo modello può essere descritta nel testo come “una rilassante melodia di violino accompagnata da un riff di chitarra distorto”. Il modello MusicLM può modificare il tono e il tempo di una melodia fischiata o canticchiata in modo che corrisponda al tenore di un testo sottotitolato perché è stato addestrato specificamente sui moduli pre-addestrati w2v-BERT, SoundStream e MuLan.


Google suggerisce anche SingSong, un sistema in grado di produrre audio musicale strumentale per abbinare l’audio vocale in ingresso. La separazione della sorgente e i progressi della modellazione audio generativa, due campi significativi della tecnologia musicale, sono entrambi utilizzati da SingSong. Il team ha modificato AudioLM per generare strumentali date voci addestrandolo guidato sui dati separati dalla sorgente utilizzando una tecnica di separazione della sorgente disponibile in commercio. I ricercatori hanno proposto due tecniche di caratterizzazione per aumentare la qualità delle voci isolate del 55% rispetto al miglioramento AudioLM di base.


Moûsai è un modello di diffusione a cascata condizionale al testo che ci consente di creare musica stereo a 48kHz a contesto lungo che dipende dal contesto oltre il segno dei minuti. È stato sviluppato in collaborazione tra ricercatori dell’ETH di Zurigo e del Max Planck Institute for Intelligent Systems. Il modello Moûsai è stato sviluppato dai ricercatori utilizzando la diffusione a cascata a due stadi, che può essere gestita e insegnata utilizzando le risorse che si trovano tipicamente nei college. Ogni fase del modello richiede circa una settimana per l’addestramento su una GPU A100.


AudioLDM, un sistema TTA che utilizza LDM continui per ottenere una qualità di generazione all’avanguardia, presenta vantaggi in termini di efficienza di elaborazione e manipolazione audio condizionata dal testo, è stato introdotto dall’Università del Surrey in collaborazione con l’Imperial College di Londra. Questo metodo è in grado di addestrare LDM senza utilizzare coppie audio-lingua imparando come creare l’audio prima in uno spazio latente.


I quattro nuovi modelli—MusicLM, SingSong, Moûsai e AudioLDM—che sono stati recentemente lanciati stanno facilitando la continua ricerca in quest’area. I recenti progressi nella creazione audio sono entusiasmanti. Ogni modello ha la sua strategia e una serie di vantaggi, e gli sviluppi futuri nel campo sono previsti come risultato del suo utilizzo. Ci sono innumerevoli vantaggi che l’apprendimento profondo e i grandi modelli linguistici (LLM) possono fornire per la creazione di audio, ed è probabile che presto si verifichino ulteriori innovazioni.