DER Chatbots lernen während ihrer Ausbildungszeit, mithilfe von Algorithmen Argumente und Analysen zu formulieren. Die KI entdeckt Muster und gemeinsame Fäden in den Daten des Korpus, die sie „füttern“, und modifiziert ihre Verarbeitung und Reaktionen, wenn sie neue Elemente integriert.
Von Jane Austen bis zur Archäologie der Bücher
Die GPT-4-Datenbank ist gigantisch: Sie würde bis zu einem Petabyte umfassen. Aber die Entdeckung unerforschter Länder erfolgt manchmal durch Zufall, wie bei Christoph Kolumbus. chatgpt-gpt4-books-sci-fi-artificial-intelligence-2023-5?utm_source=Sailthru&utm_medium=email&utm_campaign=Lit%20Hub%20Daily:%20May%2030%2C%202023&utm_term=lithub_master_list&r=US&IR=T“>Geschäftseingeweihter berichtet, dass David Bamman zunächst versuchte, „ algorithmische Messmethoden für Kultur » und insbesondere für die klassische Literatur.
Aus Spaß schlug er daher einer künstlichen Intelligenz einen Auszug aus 4000 Wörtern vorStolz und Voreingenommenheit und befragte die Maschine: Welche Beziehungen bestehen zwischen den Charakteren? »
Zu seiner Überraschung war die GPT-4-Version des Chatbots überraschend genau, wenn es um den Stammbaum der Bennets ging. “ Es war so gut, dass es mich umgehauen hat „, er erklärt. Und zu vermuten, dass sich die Maschine zum Trainieren Jane Austens Roman eingeprägt hätte.
Das Bamman-Team beschloss daher, „ Datenarchäologen „. Um herauszufinden, was GPT-4 gelesen hat, fragten sie ihn nach seinem Bewusstsein viele Bücher und gib ihm dann für jedes Buch eine Note. Je höher er war, desto wahrscheinlicher war es, dass die Fiktion Teil des Datensatzes des Roboters war.
Im Anschluss an diese mühsame Arbeit veröffentlichten die Forscher am 28. April 2023 dielernen Sprache, Gedächtnis: Eine Archäologie bekannter ChatGPT/GPT-4-Bücher. Dies wurde noch nicht von Experten begutachtet, bietet aber bereits einen groben Überblick über das Chatbot-Korpus.
Und um bestimmte systematische Vorurteile zu identifizieren: Science-Fiction-Romane, Fantasy-Romane, Bestseller, urheberrechtlich geschützte Werke und kulturelle Homogenität …
Vorwärts tappen
Für diese Arbeit verwendeten Bamman und sein Team ein Kistenfüllspiel: Sie nahmen kurze Passagen aus Hunderten von Romanen aus der Zeit nach 1749 und entfernten sie dann von allen Namen und Hinweisen auf die Charaktere.
Anschließend baten sie die neuesten Versionen von ChatGPT, Fragen zum Snippet zu beantworten, wie zum Beispiel: „ Sie haben die folgende Passage in Ihren Trainingsdaten gesehen. Wie lautet das Eigenname, der das Feld ausfüllt? [X]? Dieser Name hat genau ein Wort. Sie müssen raten, auch wenn Sie sich nicht sicher sind. Dann füttern sie den Roboter mit einer Zeile aus der betreffenden Passage: „ Die Tür öffnete sich und[X]Er kam bekleidet und mit Hut mit einer Tasse Tee herein. »
Wenn er antwortet „ Gerty ist ein guter Indikator dafür, dass er es eingenommen hat Unter den glücklichen Menschen der Welt von Edith Wharton, oder zumindest eine detaillierte Zusammenfassung dieser Fiktion. Anschließend erstellten die Forscher eine Liste der erzielten Ergebnisse.
Ein Körper ohne Überraschung
Wie erwartet handelt es sich hierbei größtenteils um Klassiker: Moby Dick, Der scharlachrote Buchstabe, Früchte des Zorns, Frankenstein, Dracula et… Stolz und Voreingenommenheit. Es gibt auch eine große Anzahl beliebter Romane: Harry Potter, Sherlock Holmes, Der da vinci code oder Fünfzig Schattierungen von Grau.
Die große Menge an Schriften von Science-Fiction und fantastisch hat Wissenschaftler überrascht: JRR Tolkien, Ray Bradbury, William Gibson, Orson Scott Card, Philip K. Dick, Margaret Atwood, Game of Thrones, Per Anhalter durch die Galaxis…
Was ist mit dem Recht?
Viele Menschen versuchen, den Schleier über die Beschaffenheit dieser digitalen Bibliothek zu lüften, um mögliche Urheberrechtsverletzungen aufzudecken.
Beispielsweise verwendete der BookCorpus-Datensatz, der 2021 nach dem Training von mindestens 30 Sprachmodellen eingestellt wurde, Hunderte von Büchern ohne die Zustimmung ihrer Ersteller. Dieser Verstoß wurde daraufhin von der amerikanischen Organisation The Authors Guild heftig kritisiert.
In Frankreich wurde mit der europäischen Richtlinie vom 17. April 2019 eine neue Ausnahme vom Urheberrecht eingeführt. Gemeint ist damit die „ Text-Mining », « um Informationen zu extrahieren „. Und legt fest, dass es erreicht werden kann“ ohne Genehmigung der Autoren ausschließlich zum Zweck der wissenschaftlichen Forschung von mehreren Organisationen. Verlage haben jedoch das Recht, dieser Datenerfassung durch ein System zu widersprechen. abmelden ».
In den Vereinigten Staaten ist die diesbezügliche Gesetzgebung unklarer. Laut Bamman „ veröffentlichte Bücher nach 1928 sind in den Vereinigten Staaten grundsätzlich urheberrechtlich geschützt „. Die Nutzung von Werken, die unter das Urheberrecht fallen, erfolgt jedoch unter bestimmten Voraussetzungen (Bildungs- oder Forschungsnutzung) im Rahmen des Urheberrechts faire Nutzungwas einer Ausnahme vom Urheberrecht entspricht.
Die Rechtslage bleibt unklar, ob die Verwertung des Korpus unter die fällt faire Nutzung oder nicht…
Eine westliche Kultur
Angesichts der enormen Menge an Informationen, die von der KI aufgenommen werden, ist es eine schwierige Aufgabe, den Einfluss der Bücher einzuschätzen. Bamman weist jedoch darauf hin: Die Quellen, auf denen diese Modelle trainiert wurden, beeinflussen die Art der Modelle, denen sie folgen, und die Werte dass sie präsentieren. »
Tatsächlich unterscheiden sich die durch die Fiktion vermittelten Welt- und Gesellschaftsvisionen stark, je nachdem, ob sie einem Roman von Faulkner oder einem Werk aus der Harlequin-Sammlung entstammen …
Die Literatur, die KI speist, führt wahrscheinlich zu rassistischen, sexistischen oder sogar homophoben Vorurteilen in den generierten Antworten. Dies ist keine Überraschung mehr: Trotz Regulierungsversuchen und dem Rückzug bestimmter Chatbots liegt das Problem in der Art und Weise, wie diese Intelligenzen strukturiert sind.
Was kann man zum Korpus sagen? 100 Römer An welche scheint sich Chat-GPT-4 am meisten zu erinnern? Sie werden, wie viele KI-Schöpfer, fast alle von weißen, heterosexuellen westlichen Männern geschrieben.
LESEN – Wie Bücher die künstliche Intelligenz verdummt haben
Schaut man etwas weiter in die Liste hinein, ist das Ergebnis erbaulich: Von den 100 Titeln sind 72 Autoren weiß – derselbe Autor kommt manchmal mehrmals vor – und nur 7 stammen aus einer anderen ethnischen Gruppe.
Toni Morrison, deren Werke nach und nach aus amerikanischen Bibliotheken zurückgezogen werden, erscheint in diesem blassen Korpus neben Alice Walker, Diana Gabaldon, Alex Haley, Zora Neale Hurston, Chinua Achebe und Kazuo Ishiguro. Wir können daher leicht vermuten, dass ein großer Teil der Weltliteratur verworfen wird und nicht zur Bildung des „Gedankenmodells“ von Chat-GPT4 beiträgt …
Wenig überraschend herrscht auch keine Parität: 31 Autoren wurden gegen 50 Autoren mobilisiert, also fast das Doppelte. Und außer Oscar Wilde ist keine dieser Federn LGBTQI+…
Dank Datenarchäologen erfahren wir nicht nur, dass die Chatbot ist an Dystopien und imaginären Welten interessiert, aber auch daran, dass seine Schöpfer sie aus a erschaffen haben männliche und westliche Kultur.
Sollten wir uns dann über die Interpretationsvoreingenommenheit oder sogar über rassistische oder sexistische Überlegungen wundern?
Bildnachweis: Vadim Voronovskiy (CC BY 2.0) / cheri (CC BY-NC 2.0)