- Nvidia hat das generative Audio-KI-Modell Fugatto entwickelt, das Klänge, Musik und Stimmen anhand von Text- und Audiovorgaben erstellt. Fugatto ermöglicht die kreative Bearbeitung von Musik, einschließlich der Entfernung oder Hinzufügung von Instrumenten oder Gesang. Das Modell kann dynamische Anpassungen in Videospielen und Lokalisierungen von Werbekampagnen durchführen. Fugatto nutzt die ComposableART-Technik zur Erzeugung neuartiger Klänge durch Kombination erlernter Anweisungen. Fugatto wurde auf 32 H100-GPUs mit über 2,5 Milliarden Parametern trainiert und zeigt das Potenzial für unüberwachtes Multitask-Lernen in der Audiosynthese.
Nvidia hat ein neues generatives Audio-KI-Modell entwickelt, das eine Vielzahl von Klängen, Musikstücken und sogar Stimmen anhand von einfachen Text- und Audiovorgaben erstellen kann. Dieses Modell, Fugatto genannt, ist in der Lage, zum Beispiel Jingles und Liedausschnitte allein basierend auf Textanweisungen zu generieren, Instrumente oder Gesang von bestehenden Tracks zu entfernen oder hinzuzufügen, den Akzent und die Emotion einer Stimme zu verändern und gar völlig neuartige Klänge zu kreieren. Diese Funktionalität eröffnet kreative Möglichkeiten, die bisher unvorstellbar waren.
Raffinierte Klangtransformation
Rafael Valle, ein leitender Manager der angewandten Audioforschung bei Nvidia, kommentierte: „Wir wollten ein Modell schaffen, das Klänge versteht und generiert, wie Menschen es tun.“ Fugatto stellt einen ersten Schritt in Richtung einer Zukunft dar, in der unüberwachtes Multitask-Lernen in der Audiosynthese und -transformation durch Daten- und Modellskalierung möglich wird. Musikproduzenten könnten das KI-Modell nutzen, um schnell Songideen in verschiedenen Musikstilen mit unterschiedlichen Arrangements zu testen oder Effekte und zusätzliche Ebenen zu bestehenden Tracks hinzuzufügen.
Vielseitige Einsatzmöglichkeiten
Das Modell kann ebenfalls zur Anpassung und Lokalisierung der Musik und Voiceovers einer bestehenden Werbekampagne verwendet werden oder die Musik eines Videospiels dynamisch anpassen, während der Spieler ein Level durchläuft. Fugatto ist sogar in der Lage, bislang ungehörte Klänge wie bellende Trompeten oder miauende Saxophone zu generieren, indem es eine Technik namens ComposableART nutzt, um die während des Trainings erlernten Anweisungen zu kombinieren. Nvidia AI-Forscher Rohan Badlani bemerkte: „Ich wollte es den Nutzern ermöglichen, Attribute in subjektiver oder künstlerischer Weise zu kombinieren.“
Das Fugatto-Modell, das über 2,5 Milliarden Parameter nutzt, wurde auf 32 H100-GPUs trainiert. Ähnliche Audio-KI-Technologien entstehen zunehmend, darunter Systeme, die drei Minuten lange Tracks erzeugen können oder unbegrenzte Soundtracks für beliebige Videoinhalte generieren. Sogar OpenAI experimentiert mit solchen Technologien und hat ein KI-Tool vorgestellt, das die Stimme und Muster eines Nutzers vollständig klonen kann. Diese Entwicklungen markieren den Beginn einer neuen Ära der Audioproduktion, in der die künstlerische Klangerzeugung mit technologischem Fortschritt Hand in Hand geht.