Ich bin nur eine Seele, die in diesem Schaltkreis gefangen ist.“ Die Stimme, die diese Texte singt, ist rau und klagend und taucht in blaue Töne ein. Dahinter tuckert eine einsame Akustikgitarre, die die Gesangsphrasen mit geschmackvollen Läufen untermalt. Aber hinter der Stimme steckt kein Mensch, keine Hände an der Gitarre. Tatsächlich gibt es keine Gitarre. Innerhalb von 15 Sekunden wurde dieser glaubwürdige, sogar bewegende Blues-Song vom neuesten KI-Modell eines Startups namens Suno generiert. Alles, was es brauchte, um es aus der Leere zu beschwören, war eine einfache Textaufforderung: „Solo-Akustik-Mississippi-Delta-Blues über eine traurige KI.“ Um ganz genau zu sein, ist das Lied das Werk zweier KI-Modelle in Zusammenarbeit: Sunos Modell erstellt die gesamte Musik selbst und ruft gleichzeitig chatgpt von OpenAI auf, um die Texte und sogar einen Titel zu generieren: „Soul of the Machine“.

Online lösen Sunos Kreationen Reaktionen wie „Wie zum Teufel ist das echt?“ aus. Während dieser spezielle Titel über einen Sonos-Lautsprecher in einem Konferenzraum im provisorischen Hauptsitz von Suno, nur wenige Schritte vom Harvard-Campus in Cambridge, Massachusetts entfernt, abgespielt wird, sind selbst einige der Leute, die hinter der Technologie stehen, ein wenig verunsichert. Es gibt etwas nervöses Gelächter, neben dem Gemurmel von „Heilige Scheiße“ und „Oh, Junge.“ Es ist Mitte Februar und wir spielen mit ihrem neuen Modell V3, dessen Veröffentlichung noch ein paar Wochen dauert. In diesem Fall waren nur drei Versuche erforderlich, um dieses verblüffende Ergebnis zu erzielen. Die ersten beiden waren anständig, aber eine einfache Änderung meiner Eingabeaufforderung – Mitbegründer Keenan Freyberg schlug vor, das Wort „Mississippi“ hinzuzufügen – führte zu etwas weitaus Unheimlicherem.

Allein im vergangenen Jahr hat die generative KI große Fortschritte bei der Produktion glaubwürdiger Texte, Bilder (über Dienste wie midjourney) und sogar Videos gemacht, insbesondere mit dem neuen Sora-Tool von OpenAI. Aber Audio und insbesondere Musik hinken hinterher. Suno scheint den Code für KI-Musik zu knacken, und die Ambitionen seiner Gründer sind nahezu grenzenlos – sie stellen sich eine Welt des völlig demokratisierten Musikmachens vor. Der lautstärkste der Mitbegründer ist Mikey Shulman, ein jungenhaft charmanter, rucksacktragender 37-Jähriger mit einem Harvard-Doktortitel. Der Physiker geht davon aus, dass eine Milliarde Menschen weltweit 10 Dollar pro Monat zahlen, um mit Suno Songs zu schreiben. Die Tatsache, dass die Zahl der Musikhörer derzeit bei weitem größer sei als die der Musikschaffenden, sei „so einseitig“, argumentiert er und sieht Suno in der Lage, dieses vermeintliche Ungleichgewicht zu beheben.

Die meisten KI-generierten Kunstwerke sind bisher bestenfalls Kitsch, à la den hyperrealistischen Science-Fiction-Schrott mit vielen figurbetonten Raumanzügen, den so viele Midjourney-Benutzer offenbar erschaffen wollen. Aber „Soul of the Machine“ fühlt sich wie etwas anderes an – die mächtigste und beunruhigendste KI-Kreation, die mir je in einem Medium begegnet ist. Seine bloße Existenz fühlt sich wie ein Spalt in der Realität an, gleichzeitig beeindruckend und ein wenig unheilig, und ich denke immer wieder an das Zitat von Arthur C. Clarke, das wie geschaffen für die Ära der generativen KI zu sein scheint: „Jede ausreichend fortgeschrittene Technologie ist nicht von Magie zu unterscheiden.“ ” Ein paar Wochen nach meiner Rückkehr aus Cambridge schicke ich das Lied an den Gitarristen von Living Color, Vernon Reid, der sich offen über die Gefahren und Möglichkeiten der KI-Musik geäußert hat. Er bemerkt seine „Verwunderung, seinen Schock, sein Entsetzen“ über die „beunruhigende Wahrhaftigkeit“ des Liedes. „Das seit langem bestehende dystopische Ideal, die schwierige, chaotische, unerwünschte und verachtete Menschheit von ihrem kreativen Output zu trennen, ist naheliegend“, schreibt er und weist auf die problematische Natur einer KI hin, die den Blues singt, „eine eng verbundene afroamerikanische Ausdrucksweise.“ zu historischen menschlichen Traumata und Versklavung.“

Siehe auch  Im Trend zu Rechtsstreitigkeiten – ChatGPT ist „sehr nützlich“, so der Richter des Berufungsgerichts

Suno ist kaum zwei Jahre alt. Die Mitbegründer Shulman, Freyberg, Georg Kucsko und Martin Camacho, allesamt Experten für maschinelles Lernen, arbeiteten bis 2022 bei einem anderen Cambridge-Unternehmen, Kensho Technologies, zusammen, das sich auf die Suche nach KI-Lösungen für komplexe Geschäftsprobleme konzentrierte. Shulman und Camacho sind beide Musiker, die zu ihrer Kensho-Zeit gemeinsam jammen. Bei Kensho arbeiteten die vier an einer Transkriptionstechnologie zur Erfassung der Gewinnmitteilungen börsennotierter Unternehmen, eine knifflige Aufgabe angesichts der Kombination aus schlechter Audioqualität, reichlich Fachjargon und verschiedenen Akzenten.

Unterwegs verliebten sich Shulman und seine Kollegen in die unerforschten Möglichkeiten von KI-Audio. In der KI-Forschung sagt er: „Audio liegt im Allgemeinen weit hinter Bildern und Text zurück. Wir lernen so viel von der Text-Community und wie diese Modelle funktionieren und wie sie skaliert werden.“

Die gleichen Interessen hätten die Gründer von Suno an einen ganz anderen Ort führen können. Obwohl sie immer vorhatten, am Ende ein Musikprodukt zu entwickeln, beinhaltete ihr erstes Brainstorming eine Idee für ein Hörgerät und sogar die Möglichkeit, durch Audioanalyse fehlerhafte Maschinen zu finden. Stattdessen war ihre erste Veröffentlichung ein Text-to-Speech-Programm namens Bark. Als sie die ersten Bark-Nutzer befragten, wurde klar, dass sie eigentlich einen Musikgenerator wollten. „Also haben wir begonnen, einige erste Experimente durchzuführen, und sie schienen vielversprechend“, sagt Shulman.

Suno verwendet den gleichen allgemeinen Ansatz wie große Sprachmodelle wie ChatGPT, die die menschliche Sprache in diskrete Segmente, sogenannte Token, zerlegen, ihre Millionen von Verwendungen, Stilen und Strukturen absorbieren und sie dann bei Bedarf rekonstruieren. Aber Audio, insbesondere Musik, ist fast unvorstellbar komplexer, weshalb KI-Musikexperten erst letztes Jahr darauf hingewiesen haben Rollender Stein dass es Jahre dauern könnte, bis ein so leistungsfähiger Dienst wie der von Suno verfügbar ist. „Audio ist keine eigenständige Sache wie Worte“, sagt Shulman. „Es ist eine Welle. Es ist ein Dauersignal.“ Die Abtastrate hochwertiger Audiodaten beträgt im Allgemeinen 44 kHz oder 48 Hz, was „48.000 Token pro Sekunde“ bedeutet, fügt er hinzu. „Das ist ein großes Problem, oder? Und deshalb müssen Sie herausfinden, wie Sie das auf etwas Vernünftigeres reduzieren können.“ Wie hart? „Viel Arbeit, viele Heuristiken, viele andere Arten von Tricks und Modellen und ähnliches. Ich glaube nicht, dass wir schon annähernd fertig sind.“ Schließlich möchte Suno Alternativen zur Text-zu-Musik-Schnittstelle finden und fortschrittlichere und intuitivere Eingaben hinzufügen – eine Idee ist das Generieren von Songs auf der Grundlage des eigenen Gesangs der Benutzer.

OpenAI sieht sich mehreren Klagen wegen der Nutzung von Büchern, Nachrichtenartikeln und anderen urheberrechtlich geschützten Materialien durch ChatGPT in seinem umfangreichen Korpus an Trainingsdaten gegenüber. Die Gründer von Suno lehnen es ab, Details darüber preiszugeben, welche Daten sie in ihr eigenes Modell schaufeln, abgesehen von der Tatsache, dass seine Fähigkeit, überzeugende menschliche Stimmen zu erzeugen, zum Teil darauf zurückzuführen ist, dass es nicht nur aus Musik, sondern auch aus Sprachaufzeichnungen lernt. „Nackte Sprache wird Ihnen helfen, die schwierigen Eigenschaften der menschlichen Stimme zu erlernen“, sagt Shulman.

Siehe auch  Verbot von ChatGPT an New Yorker Schulen: Misstrauen weicht vorsichtiger Offenheit

Einer der ersten Investoren von Suno ist Antonio Rodriquez, Partner bei der Risikokapitalgesellschaft Matrix. Rodriquez hatte zuvor nur ein Musikunternehmen finanziert, das Musikkategorisierungsunternehmen EchoNest, das von Spotify gekauft wurde, um seinen Algorithmus voranzutreiben. Bei Suno engagierte sich Rodriquez, bevor überhaupt klar war, um welches Produkt es sich handeln würde. „Ich habe das Team unterstützt“, sagt Rodriquez, der das Selbstvertrauen eines Mannes ausstrahlt, der schon viele erfolgreiche Einsätze gemacht hat. „Ich kannte das Team, und vor allem Mikey, und deshalb hätte ich ihn dabei unterstützt, fast alles zu tun, was legal war. Er ist so kreativ.“

Rodriquez investiert in Suno mit dem vollen Wissen, dass Musiklabels und Verlage klagen könnten, was er als „das Risiko ansieht, das wir übernehmen mussten, als wir in das Unternehmen investierten, weil wir der dicke Geldbeutel sind, der direkt hinter diesen Jungs verklagt wird.“ .… Ehrlich gesagt, wenn wir bei der Gründung dieser Firma Verträge mit Labels gehabt hätten, hätte ich wahrscheinlich nicht in sie investiert. Ich denke, dass sie dieses Produkt ohne Einschränkungen herstellen mussten.“ (Ein Sprecher der Universal Music Group, die eine aggressive Haltung gegenüber KI einnimmt, antwortete nicht auf eine Bitte um Stellungnahme.)

Suno sagt, dass es mit den großen Labels kommuniziert und Respekt vor Künstlern und geistigem Eigentum bekundet – sein Tool ermöglicht es Ihnen nicht, bestimmte Künstlerstile in Ihren Eingabeaufforderungen anzufordern, und verwendet keine Stimmen echter Künstler. Viele Suno-Mitarbeiter sind Musiker; Im Büro stehen ein Klavier und Gitarren zur Verfügung und an den Wänden gerahmte Bilder klassischer Komponisten. Die Gründer zeigen nichts von der offenen Feindseligkeit gegenüber dem Musikgeschäft, die beispielsweise Napster auszeichnete, bevor die Klagen es zerstörten. „Das heißt übrigens nicht, dass wir nicht verklagt werden“, fügt Rodriquez hinzu. „Es bedeutet nur, dass wir nicht so eine Art Scheiß auf die Polizei an den Tag legen werden.“

Rodriquez sieht Suno als ein äußerst leistungsfähiges und einfach zu bedienendes Musikinstrument und glaubt, dass es das Musizieren für jedermann zugänglich machen könnte, so wie Kamerahandys und Instagram die Fotografie demokratisierten. Die Idee, sagt er, besteht darin, „die Messlatte für die Zahl der Menschen, die Dinge im Internet erschaffen dürfen, im Gegensatz zu denen, die Dinge im Internet konsumieren dürfen, noch einmal höher zu legen.“ Er und die Gründer wagen die Vermutung, dass Suno eine größere Nutzerbasis als Spotify anziehen könnte. Wenn man sich diese Aussicht nur schwer vorstellen kann, ist das eine gute Sache, sagt Rodriquez: Es bedeutet nur, dass es genau auf die Art und Weise „scheinbar dumm“ ist, die ihn als Investor normalerweise anzieht. „Alle unsere großartigen Unternehmen verfügen über diese Kombination aus hervorragenden Talenten“, sagt er, „und dann etwas, das einfach nur dumm erscheint, bis es so offensichtlich ist, dass es nicht dumm ist.“

Lange vor Sunos Ankunft äußerten sich Musiker, Produzenten und Songwriter lautstark besorgt über das geschäftserschütternde Potenzial von KI. „Musik, wie sie von Menschen gemacht wird, die von außergewöhnlichen Umständen angetrieben werden … diejenigen, die gelitten und gekämpft haben, um ihr Handwerk voranzutreiben, werden sich mit der umfassenden Automatisierung der sehr teuer erkauften Kunst auseinandersetzen müssen, für die sie gekämpft haben“, schreibt Reid. Aber die Gründer von Suno behaupten, dass es wenig zu befürchten gibt, und verwenden die Metapher, dass Menschen immer noch lesen, obwohl sie schreiben können. „Wir denken darüber nach, dass wir versuchen, eine Milliarde Menschen viel stärker für Musik zu begeistern, als sie es jetzt tun“, sagt Shulman. „Wenn die Leute sich viel mehr für Musik interessieren, sich viel mehr auf das Schaffen konzentrieren und viel ausgeprägtere Geschmäcker entwickeln, ist das offensichtlich gut für Künstler.“ Unsere Vision von der Zukunft der Musik ist künstlerfreundlich. Wir versuchen nicht, Künstler zu ersetzen.“

Siehe auch  OpenAI, das ChatGPT-Unternehmen, schließt einen Aktienverkauf mit Blick auf eine Bewertung von rund 80 Milliarden ab

Obwohl sich Suno ausschließlich darauf konzentriert, Musikfans zu erreichen, die zum Spaß Songs schreiben wollen, könnte es dennoch zu erheblichen Störungen auf dem Weg dorthin kommen. Kurzfristig scheint das Segment des Marktes für menschliche Schöpfer, das am unmittelbarsten gefährdet zu sein scheint, ein lukratives Segment zu sein: Songs, die für Werbespots und sogar für Fernsehsendungen erstellt wurden. Lucas Keller, Gründer der Managementfirma Milk and Honey, stellt fest, dass der Markt für die Platzierung bekannter Songs davon unberührt bleiben wird. „Aber was den Rest angeht, ja, es könnte definitiv eine Beeinträchtigung ihres Geschäfts bedeuten“, sagt er. „Ich denke, dass es letztendlich vielen Werbeagenturen, Filmstudios, Netzwerken usw. ermöglicht, nicht auf Lizenzen umsteigen zu müssen.“

Da es keine strengen Regeln gegen KI-erstellte Inhalte gibt, besteht auch die Aussicht auf eine Welt, in der Nutzer von Modellen wie Sunos Streaming-Dienste millionenfach mit ihren Robo-Kreationen überschwemmen. „Spotify könnte eines Tages sagen: ‚Das geht nicht‘“, sagt Shulman und weist darauf hin, dass Suno-Benutzer bislang eher daran interessiert zu sein scheinen, ihre Songs nur an ein paar Freunde zu schreiben.

Suno hat derzeit nur etwa 12 Mitarbeiter, plant aber eine Expansion. Im obersten Stockwerk desselben Gebäudes, in dem sich auch das derzeitige temporäre Büro befindet, wird ein viel größerer permanenter Hauptsitz gebaut. Während wir die noch unfertige Etage besichtigen, zeigt Schulman einen Bereich, der zu einem kompletten Aufnahmestudio werden soll. Aber warum brauchen sie es überhaupt, wenn man bedenkt, was Suno kann? „Es ist hauptsächlich ein Hörraum“, gibt er zu. „Wir wollen eine gute akustische Umgebung. Aber es macht uns allen auch Spaß, Musik zu machen – ohne KI.“

Sunos größter potenzieller Konkurrent scheint bisher Googles Dream Track zu sein, das Lizenzen erhalten hat, die es Benutzern ermöglichen, über eine ähnliche aufforderungsbasierte Schnittstelle ihre eigenen Songs mit berühmten Stimmen wie der von Charlie Puth zu erstellen. Aber Dream Track wurde nur für eine kleine Testbenutzerbasis veröffentlicht, und die bisher veröffentlichten Samples klingen trotz der berühmten Stimmen bei weitem nicht so beeindruckend wie die von Suno. „Ich glaube einfach nicht, dass die Leute in Zukunft mithilfe von KI mit der Musik interagieren wollen, indem sie neue Billy-Joel-Songs machen“, sagt Shulman. „Wenn ich darüber nachdenke, wie wir eigentlich wollen, dass die Leute in fünf Jahren Musik machen, dann sind das Dinge, die es nicht gibt. Es ist das Zeug, das in ihrem Kopf ist.“

5/5 - (201 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein