Start ChatGPT 170.000 Raubkopien von Büchern sind das Geheimnis, wie „ChatGPTs“ intelligent werden |...

170.000 Raubkopien von Büchern sind das Geheimnis, wie „ChatGPTs“ intelligent werden | TechNews Technology News

Von

Debarshi

August 28, 2023

Glücklich hide

1 170.000 Raubkopien von Büchern

2 „Feuerdieb“ oder „Dieb“?

3 Jeder verklagt die KI-Giganten

4 Weiterführende Literatur:

Der „Beweis“ ist endlich da. Im Juli wurden OpenAI und Meta von den amerikanischen Autoren Sarah Silverman, Christopher Golden und Richard Kadrey verklagt, weil die beiden Unternehmen ihre Bücher ohne Zustimmung des Autors als Materialien zum Trainieren großer Modelle verwendet hätten.

Kkkk

▲ Schauspielerin, Autorin Sarah Silverman und Autobiografie. (Quelle: Michael Kovac/FilmMagic)

Wo sind die Beweise?

Im OpenAI-Fall konnte chatgpt das gesamte Buch zusammenfassen, nachdem der Kläger prompte Worte eingegeben hatte. Der Meta-Fall, das Meta-Großmodell-LLaMA-Papier, wurde geschrieben, die Trainingsdaten enthielten von EleutherAI organisierte „The Pile“-Materialien und The Pile enthielt auch die „Books3“-Datenbank, deren Inhalt die Daten der Online-Raubkopienbibliothek Bibliotik waren . Es ist ersichtlich, dass die Beweisführung des Klägers damals relativ indirekt war.

Bisher Autor und Ingenieur Alex Reisnerexponieren, Welche Autorenbücher werden hinter dem Meta-Modell unterschlagen. Überraschenderweise waren diese „Beweise“ schon immer vor unseren Augen, aber niemand hat sie gesehen. Warum? Sogar die Urheber der rechtsverletzenden Materialien haben immer darauf bestanden, dass es sich hierbei um einen Akt der „Gerechtigkeit“ handele.

170.000 Raubkopien von Büchern

Alex Reisners „großes Projekt“ begann aus Neugier:

Als Autor und Computeringenieur habe ich mich immer gefragt, welche Bücher generative KI zum Trainieren von Modellen verwendet.

Diesen Sommer begann Reisner, in Communities wie GitHub und Hugging Face nach Antworten zu suchen, und fand schließlich The Pile. Das Herunterladen von The Pile bedeutet jedoch nicht, dass Sie wissen, welche Bücher Books3 enthält. Da The Pile über 800 GB verfügt, ist es so groß, dass normale Texteditoren es überhaupt nicht lesen können. Reisner hat eine Reihe von Programmen geschrieben, um die Daten von Books3 zu erfassen.

Unerwarteterweise enthielten die gefundenen Informationen keine Etiketteninformationen wie den Titel des Buches oder den Namen des Autors, und alles war nur „Text“. Also schrieb Reisner ein weiteres Programm, um die ISBN-Nummer (International Standard Book Number) zu ermitteln und die Daten mit anderen Online-Buchhandlungen zu vergleichen, um die in Books3 enthaltenen Bücher zu identifizieren.

Am Ende fand er 190.000 ISBNs und identifizierte 170.000 Buchtitel (die tatsächliche Zahl kann etwas niedriger sein, da dasselbe Buch unterschiedliche Ausgaben hat), und die anderen 20.000 Codes konnten die Titel nicht finden. Etwa ein Drittel dieser Bücher sind Belletristik und zwei Drittel Sachbücher aus Veröffentlichungen großer und kleiner Verlage.

Zu den Büchern, die gefunden werden können, gehören die drei Autoren, die zu Beginn OpenAI und Meta verklagt haben, was als direkter Beweis dafür angesehen werden kann, dass Meta LLaMA Raubkopien von Büchern als Schulungsmaterial verwendet.Andere sind Elena Ferrante, Autorin von „My Brilliant Girlfriend“, und Autorin von „The Handmaid’s Tale“.Margaret AtwoodStephen King, Haruki Murakami, der bekannte Food-Autor Michael Pollan, der Thriller-Romanautor James Brandon Patterson und viele andere Werke.

Siehe auch Der Ersteller von ChatGPT wurde erstmals wegen einer falschen Anschuldigung einer Person verklagt: News ➕1, 08.06.2023

Neben den Werken berühmter Schriftsteller fand Reisner auch 102 Pulp-Romane von Lafayette Ronald Hubbard, dem Gründer von „Scientology“, und 90 Bücher von John F. Books sowie mehrere Werke von Erich von Däniken, einem Unterstützer der „Scientology“. Theorie der außerirdischen Schöpfung.

Reisner wies darauf hin, dass die Books3-Datenbank zwar außerhalb der KI-Community nicht sehr bekannt ist, in der Community jedoch recht beliebt ist, weil „sie heruntergeladen werden kann, die Quelle jedoch schwer zu finden ist und das Durchsuchen sehr schwierig ist.“ und analysieren.“ Es ist das erste Mal, dass Reisner eine Programmanalyse und einen Programmvergleich verfasst und außerdem einen Artikel für die Medien schreibt. Gleichzeitig behält der KI-Kreis auch stillschweigend Books3 bei, da es laut dem Erfinder von Books3 eine wichtige Ressource ist, um sicherzustellen, dass die Entwicklung generativer KI nicht von großen Unternehmen monopolisiert wird.

„Feuerdieb“ oder „Dieb“?

Es wäre am besten, wenn wir Dinge wie Books3 nicht bräuchten, aber die Situation ist, dass ohne Books3 nur OpenAI das tun kann, was es tut.

Der Schöpfer und unabhängige Entwickler von Books3, Shawn Presser, sagte gegenüber Reisner.

Presser startete Books3, um allen Entwicklern „Schulungsmaterialien auf OpenAI-Niveau“ zur Verfügung zu stellen. Im Jahr 2020 wird Presser eine Kopie von Bibliotik herunterladen und das Programm des Hackers Aaron Swartz vor mehr als zehn Jahren umschreiben, um alle Bücher im ePub-Format in einfachen Text umzuwandeln – ein Format, das besser für große Modelle geeignet ist. Die Copyright-Informationen einiger Bücher in der Datenbank fehlen. Presser sagte, dass es sich bei der Konvertierung um einen Unfall und nicht um Absicht gehandelt habe.

345354

Der Name Books3 spiegelt auch die von OpenAI erwähnten „Books1“ und „Books2“ wider. Im OpenAI-Papier aus dem Jahr 2020 wurde darauf hingewiesen, dass die Trainingsdatenbank von GPT-3 zwei auf dem Internet basierende Büchersammlungen umfasst. Es wird spekuliert, dass OpenAIs Bücher1 aus dem „Projekt Gutenberg“ (Project Gutenberg) stammt, das sich auf das Sammeln von Büchern spezialisiert hat Urheberrechte sind abgelaufen. Niemand weiß, was der Inhalt von Books2 ist. Einige Leute vermuten aufgrund der Datenmenge, dass es sich um ein Online-Raubbuch handelt, ähnlich wie Bibliotik oder Libgen.

Neben Büchern nutzt GPT-3 auch andere Daten wie Wikipedia und andere Online-Texte, weshalb der von EleutherAI integrierte Pile auch eine große Menge an Daten wie Wikipedia, YouTube-Videountertiteln, Archiven des Europäischen Parlaments und Kurzschrift enthält . Dennoch sind qualitativ hochwertige Texte für Bücher immer noch wichtig.

Siehe auch Studenten nutzen ChatGPT während einer Prüfung in Nancy massiv: Die Prüfung wurde vom Lehrer abgesagt

Meta großartigäußernDas Großmodell LlaMA-65B schnitt anfangs aufgrund „der begrenzten Anzahl an Büchern und wissenschaftlichen Arbeiten“ nicht sehr gut ab. Gemeinschaftspapier des MIT und der Cornell University ebenfallswies darauf hinBücher in der großen Modelltrainingsdatenbank „haben den stärksten positiven Effekt auf die Downstream-Leistung“, daher werden Sie The Pile und Books3 in der später von Meta gestarteten LlaMA 2-Datenbank sehen.

Aus diesem Grund wurde Books3 kürzlich veröffentlichtDie dänische Anti-Piraterie-Organisation Rights Alliance beschwerte sich über Urheberrechtsverletzungen und wurde aus dem Regal genommenDanach war Presser empört. Er ist der Meinung, dass alle großen, gewinnbringenden Unternehmen verletzende Inhalte verwenden, um große Modelle privat zu trainieren, die Quelle der Trainingsdaten jedoch nicht offenlegen, sodass niemand sie verklagen kann. Books3 wurde aus den Regalen entfernt, aber er hofft, groß rauszukommen Modelle offener und transparenter gestalten. Informationsquellen proaktiv offenlegen.

Presser sagt, dass große, finanzstarke Konzerne diese kulturverändernde, lebenswichtige Technologie nicht monopolisieren können, aber die Ressourcen müssen für alle verfügbar seinErstellen Sie Ihr eigenes Modell::

Mein Ziel ist es, den Bau großer Modelle für jedermann zugänglich zu machen.

Sofern der Autor keine Möglichkeit hat, ChatGPT herunterzufahren oder das KI-Unternehmen zur Schließung zu verklagen, ist es sehr wichtig, dass Sie und ich unser eigenes ChatGPT aufbauen können.

Genau wie in den 1990er Jahren ist es genauso wichtig, sicherzustellen, dass jeder seine eigene Website erstellen kann.

Es ist nicht völlig unmöglich, ChatGPT von der Stange zu nehmen.

Jeder verklagt die KI-Giganten

Die Klage des bekannten Autors mag mehr Aufmerksamkeit erregen, aber es sind die traditionellen Nachrichtenmedien, die das Potenzial haben, ChatGPT wegen „Rekonstruktion“ zu verklagen. NPR letzte WocheBerichtDie New York Times erwägt nach Angaben von mit der Angelegenheit vertrauten Personen ebenfalls, OpenAI zu verklagen. In den letzten Wochen hat die New York Times mit OpenAI über die Lizenzierung von Inhalten verhandelt, aber die Fortschritte verliefen nicht reibungslos, sodass die New York Times begann, darüber nachzudenken, OpenAI wegen Verstoßes zu verklagen.

Das Bundesurheberrecht der Vereinigten Staaten sieht vor, dass jede „vorsätzliche“ Verletzung mit einer Geldstrafe von bis zu 150.000 US-Dollar geahndet werden kann. Basierend auf der Berechnung der großen Anzahl von Artikeln in der „New York Times“ wird das endgültige Bußgeld so hoch ausfallen es werde „für jedes Unternehmen tödlich“ sein. Wenn der Richter außerdem entscheidet, dass OpenAI den Artikel der New York Times tatsächlich illegal zum Trainieren eines großen Modells nutzt, kann das Gericht OpenAI anweisen, die ChatGPT-Datenbank zu zerstören und zu zwingen, ChatGPT nur mit autorisierten Inhalten zu trainieren.

Siehe auch Welche wirtschaftlichen Auswirkungen könnten KI-Tools wie ChatGPT haben?

Ob der Kläger die New York Times oder die Urheber ist, ob die Klage (oder eine potenzielle Klage) gewinnen kann, hängt davon ab, ob der KI-Gigant die Nutzung ohne Vorankündigung als „faire Nutzung“ bezeichnen kann – also unter bestimmten Umständen, die eine unbefugte Nutzung ermöglichen Verwenden Sie spezifische Werke wie Lehre, Kommentar, Forschung und Berichterstattung usw. Es gibt zwei Argumente für „Fair Use“:

Generative KI reproduziert nicht das Buch selbst, sondern erstellt neue Inhalte.
Der neue Inhalt wird dem Markt für das Originalwerk nicht schaden.

Jason Schultz, Direktor der Technology Law and Policy Clinic an der New York University, sagte, dass dieses Argument in Bezug auf die widerrechtliche Aneignung von Büchern ziemlich stark sei, der Anwalt der New York Times bestand jedoch darauf, dass die Nutzung von Zeitungsnachrichten durch OpenAI nicht der „fairen Nutzung“ entspreche. “ Wenn Benutzer KI-Chatbots verwenden können, um fragmentierte Informationen zu erhalten, greifen sie nicht auf die Originalnachrichten zurück, um sie zu lesen, und diese können zu einem Ersatz für Nachrichten werden und sich auf den Originalmarkt auswirken.

Der chinesische Internet-Star Fan Bailewies darauf hin, das Gesetz über geistige Eigentumsrechte ist nicht statisch, aber der Kern ist fest: den Kreativmarkt zu gedeihen, wenn selbst KI-Unternehmen im Wert von mehreren zehn Milliarden Dollar keinen Cent für Urheberrechtsgebühren bezahlen und die Werke nehmen können, die Autoren ausgegeben haben Jahre lang umsonst zu schaffen, Gewinne zu erzielen oder sogar die Werkzeuge zu missbrauchen, die ausgebildet wurden, um Autoren zu ersetzen, ist zweifellos ein tödlicher Schlag für Schöpfer. Das von Presser erwähnte Problem der „unfairen Informationen“ sollte keine Entschuldigung für die Verletzung der Rechte der Urheber sein.

Urheberrechtsfragen sind letztendlich ein Schlüsselfaktor dafür, wie weit KI gehen kann. Daniel Gervais, Co-Direktor, Programm für geistiges Eigentum, Vanderbilt Universitydenken::

Das Urheberrecht ist ein großes Messer, das über den Köpfen von KI-Unternehmen hängt, und wenn sie keinen Weg finden, das Problem zu beheben, wird das Messer jahrelang dort hängen bleiben.

Dies ist erst der Anfang der nächsten Phase. Abschließend werden einige der laufenden Klagen wegen Verstößen gegen KI-Unternehmen als Referenz für die Leser geklärt.

Form 11 Form 22

(Dieser Artikel wird gesponsert von Lieber Fan Zum Nachdruck berechtigt; Quelle des ersten Bildes:Bild von Freepik）

Weiterführende Literatur:

⬅ Bewerten Sie post