Meta veröffentlicht Open-Source-KI-Audiotools, AudioCraft

Benj Edwards – 2. August 2023, 20:56 Uhr UTC

Am Mittwoch gab Meta bekannt, dass es AudioCraft, eine Suite generativer KI-Tools zum Erstellen von Musik und Audio aus Textansagen, als Open-Source-Lösung anbietet. Mit den Tools können Inhaltsersteller einfache Textbeschreibungen eingeben, um komplexe Audiolandschaften zu generieren, Melodien zu komponieren oder sogar ganze virtuelle Orchester zu simulieren.

AudioCraft besteht aus drei Kernkomponenten: AudioGen, einem Tool zum Generieren verschiedener Audioeffekte und Klanglandschaften; MusicGen, das aus Beschreibungen Musikkompositionen und Melodien erstellen kann; und EnCodec, ein auf einem neuronalen Netzwerk basierender Audiokomprimierungscodec.

Meta sagt insbesondere, dass EnCodec, über das wir erstmals im November berichtet haben, kürzlich verbessert wurde und eine „Musikgenerierung mit höherer Qualität und weniger Artefakten“ ermöglicht. Außerdem kann AudioGen Audio-Soundeffekte wie das Bellen eines Hundes, das Hupen eines Autos oder Schritte auf einem Holzboden erzeugen. Und MusicGen kann Songs verschiedener Genres von Grund auf zusammenstellen, basierend auf Beschreibungen wie „Pop-Dance-Track mit eingängigen Melodien, tropischen Percussions und fröhlichen Rhythmen, perfekt für den Strand.“

Meta hat auf seiner Website mehrere Hörbeispiele zur Auswertung bereitgestellt. Die Ergebnisse scheinen ihrer State-of-the-Art-Kennzeichnung zu entsprechen, aber sie sind wohl nicht hochwertig genug, um professionell produzierte kommerzielle Audioeffekte oder Musik zu ersetzen.

Meta weist darauf hin, dass generative KI-Modelle, die sich auf Text und Standbilder konzentrieren, zwar viel Aufmerksamkeit erhalten haben (und relativ einfach online damit experimentieren können), die Entwicklung generativer Audio-Tools jedoch hinterherhinkt. „Es gibt da draußen einiges an Arbeit, aber es ist sehr kompliziert und nicht sehr offen, sodass die Leute nicht ohne weiteres damit spielen können“, schreiben sie. Sie hoffen jedoch, dass die Veröffentlichung von AudioCraft unter der MIT-Lizenz der breiteren Community einen Beitrag leisten wird, indem sie zugängliche Werkzeuge für Audio- und Musikexperimente bereitstellt.

„Die Modelle stehen für Forschungszwecke und zur Förderung des Verständnisses der Menschen für die Technologie zur Verfügung. Wir freuen uns, Forschern und Praktikern Zugang zu ermöglichen, damit sie erstmals ihre eigenen Modelle mit ihren eigenen Datensätzen trainieren und dabei helfen können, den Stand der Technik voranzutreiben.“ „, sagte Meta.

Meta ist nicht das erste Unternehmen, das mit KI-gestützten Audio- und Musikgeneratoren experimentiert. Zu den bemerkenswerteren jüngsten Versuchen gehört OpenAI im Jahr 2020 mit der Jukebox, Google im Januar mit MusicLM und im vergangenen Dezember hat ein unabhängiges Forschungsteam eine Text-zu-Musik-Generierungsplattform namens Riffusion auf Basis einer stabilen Diffusion erstellt.

Keines dieser generativen Audioprojekte hat so viel Aufmerksamkeit erregt wie Bildsynthesemodelle, aber das bedeutet nicht, dass der Prozess ihrer Entwicklung nicht weniger kompliziert ist, wie Meta auf seiner Website feststellt:

Die Erzeugung von High-Fidelity-Audio jeglicher Art erfordert die Modellierung komplexer Signale und Muster in unterschiedlichen Maßstäben. Musik ist wohl die am schwierigsten zu generierende Art von Audio, da sie aus lokalen und weitreichenden Mustern besteht, von einer Reihe von Noten bis hin zu einer globalen Musikstruktur mit mehreren Instrumenten. Die Generierung kohärenter Musik mit KI wurde oft durch die Verwendung symbolischer Darstellungen wie MIDI oder Pianorollen erreicht. Diese Ansätze sind jedoch nicht in der Lage, die Ausdrucksnuancen und Stilelemente der Musik vollständig zu erfassen. Neuere Fortschritte nutzen selbstüberwachtes Audio-Darstellungslernen und eine Reihe hierarchischer oder kaskadierter Modelle zur Musikerzeugung und speisen das Rohaudio in ein komplexes System ein, um weitreichende Strukturen im Signal zu erfassen und gleichzeitig hochwertiges Audio zu erzeugen. Aber wir wussten, dass in diesem Bereich noch mehr getan werden könnte.

Inmitten der Kontroverse über nicht offengelegtes und möglicherweise unethisches Schulungsmaterial, das zur Erstellung von Bildsynthesemodellen wie Stable Diffusion, DALL-E und Midjourney verwendet wird, ist es bemerkenswert, dass Meta sagt, dass MusicGen auf „20.000 Stunden Musik im Besitz von Meta oder speziell dafür lizenziert“ geschult wurde Zweck." Oberflächlich betrachtet scheint dies ein Schritt in eine ethischere Richtung zu sein, der einigen Kritikern der generativen KI gefallen könnte.

Es wird interessant sein zu sehen, wie Open-Source-Entwickler diese Meta-Audiomodelle in ihre Arbeit integrieren. Dies könnte in naher Zukunft zu einigen interessanten und benutzerfreundlichen generativen Audio-Tools führen. Vorerst können die Code-affineren unter uns Modellgewichte und Code für die drei AudioCraft-Tools auf GitHub finden.

Nachricht

Meta veröffentlicht Open-Source-KI-Audiotools, AudioCraft