Um umfangreiche Sprachmodelle zu trainieren, haben Unternehmen wie OpenAI, Meta, google und Microsoft ohne Erlaubnis Millionen urheberrechtlich geschützter Werke aus dem Internet „entnommen“ und geerntet und bewegen sich damit in einer Grauzone.
Heute sieht sich OpenAI mit einer Reihe von Klagen konfrontiert, wobei die Kläger behaupten, dass die meisten Bücher im Schulungsdatensatz des Unternehmens aus Raubkopien und nicht autorisierten Websites stammten. Sobald ein Verstoß festgestellt wird, drohen dem Unternehmen hohe Geldstrafen oder die Neugestaltung von Algorithmen. Dies hat auch dazu geführt, dass KI-Unternehmen immer weniger bereit sind, detaillierte Informationen zu KI-Trainingsdaten weiterzugeben.
Einige öffentlich zugängliche Raubkopien wurden jedoch ins Visier genommen.
Kürzlich entdeckte jemand einen Datensatz namens Book3, der fast 200.000 Bücher enthält, darunter Werke von Bestsellerautoren wie Haruki Murakami und Stephen King. Wiederholte Angriffe auf die Organisation.
Über den Köpfen der KI-Unternehmen schwebt die scharfe Schärfe der Urheberrechtsfragen und bröckelt.
Bücher3, Geheimnisse von KI-Unternehmen
Lange Zeit waren die Trainingsdaten von KI-Modellen nicht vollständig transparent. Mehrere US-amerikanische Autoren reichten dieses Jahr eine Sammelklage gegen OpenAI ein und beschuldigten das Unternehmen, Raubkopien zum Trainieren seiner Sprachmodelle zu verwenden, Urheberrechte zu verletzen und gegen mehrere Gesetze zu verstoßen.
Die von diesen Autoren behaupteten Beweise bestehen lediglich darin, dass sie OpenAI nie die Erlaubnis zur Nutzung ihrer Arbeit erteilt haben, chatgpt jedoch in der Lage war, eine genaue Zusammenfassung ihrer Arbeit bereitzustellen, was sie zu der Annahme veranlasste, dass die Informationen von irgendwoher stammen mussten.
Laut einem Forschungsbericht zu einer frühen Version von GPT stammt der Trainingsdatensatz teilweise aus „zwei internetbasierten Buchkorpora“, die einfach „Books1“ und „Books2“ genannt werden, und welche Werke in diesen Datensätzen enthalten sind . vage. Bei Books1 handelt es sich offenbar um einen Bücherkorpus, der Hunderte von Büchern enthält, in denen ausdrücklich angegeben ist, dass sie „nicht für kommerzielle oder nichtkommerzielle Zwecke kopiert und verbreitet werden dürfen“. Book2 ist zu einem Rätsel geworden und die meisten Leute vermuten, dass sie von „berüchtigten Schattenbibliotheks-Websites“ wie Library Genesis, Z-Library, Sci-Hub und Bibliotik stammen.
Unter ihnen ist die Z-Library, die 2008 gegründet wurde und eine der größten Raubkopien von E-Book-Bibliotheken im Internet ist. Im November 2022 erhob die US-Regierung Anklage gegen zwei russische Staatsbürger, die die Website betrieben und in Argentinien festgenommen wurden.
Was die 45 TB großen Trainingsdaten von GPT-4 betrifft, gibt es noch begrenztere Informationen darüber, was sie enthalten, und OpenAI hat die Offenlegung von Trainingsdaten im Laufe der Jahre schrittweise reduziert.
Obwohl es keine direkten Beweise dafür gibt, dass OpenAI Raubkopien von Websites verwendet, um ChatGPT zu trainieren, wurden einige KI-Modelle zuvor explizit auf Raubkopien von Büchern trainiert, darunter KI-Modelle, die den Datensatz „Books3“ verwenden.
Wie im Pythia-Forschungspapier von EleutherAI erwähnt, wird Pythia mithilfe des Pile-Datensatzes trainiert, und der Pile-Datensatz enthält mehrere englische Textsätze, von denen einer ein Datensatz mit dem Namen „Books3“ ist.
Books3 ist einer der bekanntesten Repositorien für Raubkopien von Büchern zum Training von KI, ursprünglich hochgeladen im Jahr 2020 vom KI-Entwickler und bekannten Open-Source-KI-Unterstützer Shawn Presser. Es enthält 37 GB Text, darunter 196.640 Bücher im Klartext, und wird auf der Piraterieseite bibliotik gehostet.
„Angenommen, Sie möchten ein erstklassiges GPT-Modell wie OpenAI trainieren. Wie geht das? der Bibliotik“. “, schrieb Shawn Presser zunächst auf der sozialen Plattform.
Allerdings ergreifen auch Anti-Piraterie-Gruppen im Namen interessierter Gruppen Maßnahmen, um die Verwendung nicht autorisierter KI-Schulungsmaterialien einzuschränken.
Während dieser Zeit, nachdem die Anti-Piraterie-Organisation Rights Alliance eine Deaktivierungsmitteilung an die entsprechende Website gesendet hatte, hatte die entsprechende Website den Books3-Datensatz offline geschaltet, was dazu führte, dass Benutzern, die versuchten, auf den Datensatz zuzugreifen, ein 404-Fehler angezeigt wurde. Rights Alliance wandte sich auch an die AI-Modell-Hosting-Plattform Hugging Face (die den Books3-Download-Link hostet) und EleutherAI. Obwohl einige Links entfernt wurden, sind Kopien des Datensatzes nicht verschwunden und erscheinen weiterhin an anderer Stelle.
Nachdem er ins Visier genommen wurde, veröffentlichte Shawn Presser weiterhin neue Download-Links. Er sagte, dass er hoffe, dass jeder sein eigenes ChatGPT erstellen könne, es sei denn, die Gegner beabsichtigen, ChatGPT offline zu schalten oder es zum Verschwinden zu bringen. Er sagte auch, dass er „gerne dazu gehen würde“. 10 Monate Gefängnis (die Höchststrafe, die der Gründer von Pirate Bay jemals verbüßt hat), weil ich den wissenschaftlichen Fortschritt vorangetrieben und Ihnen die Möglichkeit gegeben habe, ChatGPT zu replizieren.
„Die einzige Möglichkeit, ein Modell wie ChatGPT zu replizieren, besteht darin, einen Datensatz wie Books3 zu erstellen.“ Shawn Presser sagte: „Jedes gewinnorientierte Unternehmen wird dies im Geheimen tun und den Datensatz nicht der Öffentlichkeit zugänglich machen.“ „Ohne Books3, Wir leben in einer Welt, in der nur OpenAI und andere Billionen-Dollar-Unternehmen Zugriff auf diese Bücher haben, was bedeutet, dass Sie kein eigenes ChatGPT erstellen können. Niemand kann das. Nur Milliarden-Dollar-Unternehmen haben die Ressourcen dazu.“
Einige Unternehmen, darunter Meta, haben Book3 verwendet. Darüber hinaus wurden auch die von Meta und Google verwendeten C4-Trainingsdatensätze kritisiert. Jetzt gehen diese Unternehmen vertraulicher mit dem Inhalt ihrer Sprachmodelle um.
Metas Llama 2 verfügt über 40 % mehr Daten, aber in seinem Whitepaper ist das Unternehmen zögerlicher, welche Daten es für sein neuestes großes Sprachmodell verwenden soll, wobei nur „ein neuer Hybrid öffentlich verfügbarer Online-Daten“ erwähnt wird. Da sich die Spannungen zwischen KI und Urheberrecht verschärfen, zögern Unternehmen zunehmend, Details zu KI-Trainingsdaten weiterzugeben.
Tausende Schriftsteller unterzeichneten dagegen
Mehr als 10.000 Autoren fordern KI-Unternehmen bereits auf, ihre Arbeit nicht mehr ohne Erlaubnis zu nutzen. Sie wollen nicht, dass KI ihre Arbeit nachahmt und das Schreiben lernt, es sei denn, Technologieunternehmen zahlen dafür.
Die Authors Guild of America hat einen offenen Brief an Giganten geschickt, darunter die CEOs von OpenAI, Google, Meta, Stability AI, IBM und Microsoft, und fordert sie auf, ihre Arbeit nicht mehr ohne Erlaubnis zu nutzen oder sie für die Nutzung zu entschädigen.
Dazu gehören Dan Brown, Autor von The Da Vinci Code, Susan Collins, Autorin von The Hunger Games, Margaret Atwood, Autorin von The Handmaid’s Tale, und Jonathan Franson, Autor von Freedom und andere, die den offenen Brief und die Liste der Unterzeichneten unterzeichnet haben Autoren ist mehr als 100 Seiten lang.
Derzeit versucht die Writers Guild, den Streit zunächst beizulegen, ohne eine Klage einzureichen, denn „Rechtsstreitigkeiten kosten viel Geld und dauern lange.“
Aber es gibt auch Leute in der Literaturwelt, die bereit sind, Technologieunternehmen direkt vor Gericht zur Rede zu stellen und Unternehmen wie Meta oder OpenAI vorzuwerfen, Raubkopien zum Trainieren ihrer KIs zu verwenden. Darüber hinaus verhandeln Literaturagenten mit Verlagen über eine Aktualisierung der Bedingungen von Verlagsverträgen, um die unbefugte Nutzung von KI-Schulungen zu verbieten, und die meisten Verlage sind bereit, die KI-Nutzung ihrer Veröffentlichungen einzuschränken.
Nach Angaben der Authors Guild of America glauben 90 % der Autoren, dass Autoren für die Verwendung ihrer Arbeit beim Training generativer künstlicher Formel-KI entschädigt werden sollten.
Darüber hinaus glauben 69 % der Autoren, dass ihre Karriere durch generative KI gefährdet wird, und 70 % glauben, dass Verlage anfangen werden, KI zur vollständigen oder teilweisen Generierung von Büchern einzusetzen und damit menschliche Autoren zu ersetzen.
Neben der Veröffentlichung offener Briefe, der Bekämpfung von Klagen und der Perfektionierung von Verträgen ist die Verlagsbranche immer noch auf der Suche nach Gesetzen.
Die Mitglieder der Authors Guild of America setzen sich für Gesetze, Vorschriften und Richtlinien ein: zur Einwilligung, die die Erlaubnis erfordert, die Arbeit von Autoren in der generativen KI zu verwenden; zur Vergütung für diejenigen, die zulassen möchten, dass ihre Arbeit in der generativen KI-Schulung von Autoren verwendet wird ; und in Bezug auf Transparenz verlangen wir von KI-Entwicklern, dass sie die Werke, die sie zum Trainieren ihrer KI verwenden, transparent offenlegen.
Sie erwarten auch, dass Genehmigungs- und Vergütungsmechanismen vorhanden sind, wenn die Ausgabe einer generativen KI das Werk eines Autors verwendet oder wenn der Name, die Identität oder der Werktitel des Autors in einem Hinweis verwendet wird. Darüber hinaus verlangen sie von Autoren, Verlagen, Plattformen und Marktplätzen, dass sie KI-produzierte Werke kennzeichnen, und zwar dann, wenn ein erheblicher Teil des Werks (z. B. mehr als 10–20 %) von KI produziert wird.
„Wir müssen sicherstellen, dass menschliche Schöpfer entlohnt werden, nicht nur für die Schöpfer selbst, sondern um sicherzustellen, dass unsere Bücher und unsere Kunst weiterhin unsere realen und eingebildeten Erfahrungen widerspiegeln, unsere Denkweisen öffnen und uns neue Denkweisen lehren.“ und die Entwicklung unserer Gesellschaft fördern, anstatt alte Ideen zu wiederholen“, sagte der Schriftstellerverband in einer offiziellen Erklärung.
NYT VS OpenAI
Neben Autoren und Künstlern haben sich auch andere Arten von Inhaltserstellern den Reihen der klagenden KI-Unternehmen angeschlossen, und einige Nachrichtenorganisationen haben Technologieunternehmen dafür kritisiert, dass sie ihre Inhalte ohne Genehmigung oder Entschädigung nutzen.
Beispielsweise erwägt die New York Times eine Klage gegen OpenAI und behauptet, dass ChatGPT von OpenAI die Daten der Zeitung ohne die Erlaubnis der New York Times für Schulungen verwendet habe. In den letzten Monaten haben OpenAI und die New York Times versucht, einen Lizenzvertrag für Inhalte der New York Times abzuschließen. Doch die Verhandlungen sind noch nicht zustande gekommen und es besteht die Möglichkeit eines Scheiterns.
In einer kürzlichen Änderung ihrer Nutzungsbedingungen verbietet die New York Times ausdrücklich die Nutzung ihrer umfangreichen Medienarchive zum Zweck des Trainings „jeglicher Softwareprogramme, einschließlich, aber nicht beschränkt auf das Training von Systemen des maschinellen Lernens oder der künstlichen Intelligenz (KI). “ Die Richtlinie gilt für Textinhalte, Fotos, Videos und Metadaten der New York Times und verbietet Webcrawlern ausdrücklich den Zugriff auf dieses Material, um proprietäre Produkte zu trainieren.
Lassen Sie uns hier eine Annahme treffen. Wenn das Gericht entscheidet, dass das Trainingsverhalten von KI-Unternehmen wie OpenAI einen Verstoß darstellt, könnte OpenAI gezwungen sein, die Verwendung urheberrechtlich geschützter Materialien einzustellen und seinen Algorithmus ohne die Verwendung urheberrechtlich geschützter Materialien neu zu erstellen. Wie viel Ärger wird dies verursachen?
Technologieunternehmen haben auch versucht, Beziehungen zu Nachrichtenagenturen aufzubauen. Google hat versucht, die Unterstützung von Nachrichtenorganisationen wie der New York Times und der Washington Post zu gewinnen, indem es ihnen KI-Tools verkauft. Und KI-Unternehmen leisten bescheidene wohltätige Spenden an gemeinnützige Journalismusorganisationen.
Während dieser Zeit waren einige Nachrichtenorganisationen nicht so hart. Associated Press hat dieses Jahr einen zweijährigen Lizenzvertrag mit OpenAI abgeschlossen und sich bereit erklärt, die Inhalte von Associated Press an OpenAI für Schulungen zu lizenzieren. Im Gegenzug gewährte OpenAI The Associated Press Zugang zum „technischen und Produkt-Know-how von OpenAI“.
Das scharfe Messer, das über den Köpfen von KI-Unternehmen hängt
KI-Unternehmen greifen im Internet auf riesige Datenmengen zurück, was zu rechtlichen Problemen geführt hat und immer mehr Menschen Klagen gegen KI-Unternehmen erheben.
In diesem Jahr reichten US-Anwaltskanzleien nacheinander Klagen gegen Giganten wie OpenAI und Meta ein und beschuldigten sie, die Werke Tausender Autoren ohne Zustimmung, Genehmigung oder Vergütung zum Trainieren ihrer großen Sprachmodelle zu verwenden. Die Branche geht davon aus, dass die Klage groß sein wird, da andere Content-Ersteller wahrscheinlich ebenfalls dazu angeregt werden, rechtliche Schritte einzuleiten.
Andere generative KI-Unternehmen wie Stability AI, das hinter dem KI-Bildgenerierungstool Stable Diffusion steht, waren ebenfalls mit Urheberrechtsklagen konfrontiert. Stable Diffusion wird auf dem LAION-5B-Datensatz trainiert, der 5,85 Milliarden Bildtexte enthält, von denen die meisten urheberrechtlich geschützt sind. Getty Images verklagt Stability AI wegen unbefugtem Training eines KI-Bilderzeugungsmodells auf mehr als 12 Millionen Getty Images.
Viele Künstler und Interessengruppen haben ebenfalls ihren Unmut zum Ausdruck gebracht und Klagen gegen Unternehmen wie Stability AI, DeviantArt und midjourney wegen Urheberrechtsverletzung, Bildverletzung, unlauterem Wettbewerb und unlauterem Gewinn eingereicht und Schadensersatz und Unterlassungsklagen gefordert.
Auch Microsofts Programmiertool Copilot steht vor einer Sammelklage. Copilot ist ein auf künstlicher Intelligenz basierendes automatisches Programmierprodukt, das gemeinsam von GitHub und OpenAI entwickelt wurde. Es nutzt hauptsächlich die öffentliche Bibliothek auf GitHub und wurde auf Milliarden von Zeilen öffentlich verfügbaren Codes trainiert. Es kann über einfache Eingabeaufforderungen für Benutzer Code schreiben. Open-Source-Programmierer und Anwälte haben ihnen vorgeworfen, an Open-Source-Softwarepiraterie beteiligt zu sein. Zu den Angeklagten zählen GitHub, Microsoft und sein Technologiepartner für künstliche Intelligenz OpenAI.
Sollte es vor Gericht gehen, würden KI-Unternehmen es wahrscheinlich verteidigen, indem sie sich auf die sogenannte „Fair-Use-Doktrin“ berufen, die es erlaubt, Werke unter bestimmten Umständen ohne Genehmigung zu verwenden, einschließlich für Lehrzwecke, Kritik, Forschung und Berichterstattung. Die Frage ist, ob die „Fair-Use-Doktrin“ auf das KI-Training anwendbar ist.
Auch die Authors Guild of America verklagte Google vor einigen Jahren, weil es keine Bücher kaufte, die in ihrem Bibliotheksprogramm enthalten waren, als ein Bundesberufungsgericht entschied, dass Google Millionen digitaler Kopien von Büchern für sein Bibliotheksprogramm gescannt habe. Es sei eine legale „faire Nutzung“ und keine Urheberrechtsverletzung. Der Punkt ist, dass die digitale Bibliothek von Google keinen „signifikanten Marktersatz“ für die Bücher geschaffen hat, was bedeutet, dass sie nicht mit den Originalen konkurriert.
Regierungen arbeiten derzeit daran, generative KI in die Gesetzgebung zu integrieren. Auch die Europäische Union arbeitet an einem KI-Gesetz, das Unternehmen dazu zwingen soll, Informationen über Ausbildungsmodelle transparent zu machen. In der ersten Jahreshälfte besuchte die Writers Guild of America zweimal Capitol Hill, um Fragen der generativen KI und des Autorenschutzes zu erörtern, darunter kollektive Lizenzierung und Urheberrechtsschutz, kartellrechtliche Immunität sowie KI-Kennzeichnungs- und Transparenzanforderungen.
„Solange der Kongress nicht eingreift, um sicherzustellen, dass die Entwicklung und Nutzung generativer Technologien der künstlichen Intelligenz reguliert wird, werden die lebenswichtigen urheberrechtlichen Anreize, die originellen Ausdruck fördern und unseren kulturellen Austausch bereichern, bedeutungslos“, sagte die Writers Guild in einer offiziellen Erklärung.
Nach der bestehenden öffentlichen Meinung zu urteilen, sind einige Menschen zwar besorgt, dass das Training von KI zu Urheberrechtsproblemen führen könnte, andere glauben jedoch, dass KI-Unternehmen wie OpenAI keine speziellen Autorisierungsverträge zum Trainieren von Modellen benötigen und Urheberrechtsbedenken der Entwicklung und dem Fortschritt nicht förderlich sind KI: Die Zustimmung des Autors ist von entscheidender Bedeutung, und Urheber sollten das Recht haben, dies abzulehnen, oder KI-Unternehmen sollten zumindest Bücher als Schulungsmaterial kaufen.
Technologie bewirkt Dinge, die es in der Geschichte der Menschheit noch nie gegeben hat. Sollte der Open-Source-Geist der KI-Trainingsdaten ein Endergebnis haben? Werden die künftigen Gesetze einschränken oder schützen? Wie die Entwicklung der KI mit der Achtung der Rechte und Interessen der menschlichen Schöpfung in Einklang gebracht werden kann, könnte eine ebenso wichtige Frage sein wie „Wann kommt die allgemeine künstliche Intelligenz?“.