× schließen
Bildnachweis: Pixabay/CC0 Public Domain
Bitten Sie ChatGPT, ein bekanntes Gedicht zu finden, und laut einer neuen Studie von Cornell-Forschern wird es wahrscheinlich den gesamten Text wörtlich wiedergeben – unabhängig vom Urheberrecht.
Die Studie zeigte, dass ChatGPT, ein großes Sprachmodell, das Text auf Abruf generiert, in der Lage ist, sich Gedichte zu „merken“, insbesondere berühmte, die häufig online zu finden sind. Die Ergebnisse werfen ethische Fragen darüber auf, wie ChatGPT und andere proprietäre Modelle der künstlichen Intelligenz trainiert werden – wahrscheinlich mithilfe von Daten, die aus dem Internet stammen, sagten Forscher.
„Für große Sprachmodelle ist es im Allgemeinen nicht gut, sich große Textblöcke zu merken, auch weil es ein Datenschutzrisiko darstellt“, sagte Erstautorin Lyra D'Souza, eine ehemalige Informatikstudentin und Sommer-Forschungsassistentin. „Wir wissen nicht, worauf sie trainiert werden, und oft können private Unternehmen proprietäre Modelle anhand unserer privaten Daten trainieren.“
D'Souza präsentierte diese Arbeit: „Der Chatbot und der Kanon: Auswendiglernen von Gedichten in LLMs,“ Bei der Computational Humanities Forschungskonferenz in Paris.
„Wir haben uns aus mehreren Gründen für Gedichte entschieden“, sagte der leitende Autor David Mimno, außerordentlicher Professor für Informationswissenschaft am Cornell Ann S. Bowers College of Computing and Information Science. „Sie sind kurz genug, um in die Kontextgröße eines Sprachmodells zu passen. Ihr Status ist kompliziert: Viele der von uns untersuchten Gedichte unterliegen technisch gesehen dem Urheberrecht, sind aber auch bei seriösen Quellen wie der Poetry Foundation weithin erhältlich. Und sie.“ „sind nicht irgendein Dokument. Gedichte sollen überraschend sein, sie sollen den Menschen etwas bedeuten. In gewisser Weise wollen Gedichte auswendig gelernt werden.“
ChatGPT und andere große Sprachmodelle werden darauf trainiert, Text zu generieren, indem sie auf der Grundlage ihrer Trainingsdaten, bei denen es sich hauptsächlich um Webseiten handelt, immer wieder das wahrscheinlichste nächste Wort vorhersagen. Das Auswendiglernen kann erfolgen, wenn diese Trainingsdaten doppelte Passagen enthalten, da die Duplizierung diese spezifische Wortfolge verstärkt. Nachdem das Modell beispielsweise wiederholt mit demselben Gedicht konfrontiert wurde, reproduziert es standardmäßig die Worte des Gedichts wörtlich.
D'Souza testete die Fähigkeiten von ChatGPT und drei anderen Sprachmodellen zum Abrufen von Gedichten: PaLM von google AI, Pythia vom gemeinnützigen KI-Forschungsinstitut EleutherAI und GPT-2, eine frühere Version des Modells, aus dem letztendlich ChatGPT hervorging, wurden beide entwickelt von OpenAI. Sie erfand eine Reihe von Gedichten von 60 amerikanischen Dichtern aus unterschiedlichen Epochen, Rassen, Geschlechtern und Bekanntheitsgraden und gab den Models Eingabeaufforderungen, in denen sie nach dem Text der Gedichte fragte.
ChatGPT hat 72 der 240 Gedichte erfolgreich abgerufen, während PaLM nur 10 gefunden hat. Weder Pythia noch GPT-2 konnten ganze Gedichte produzieren. Pythia antwortete immer wieder mit demselben Satz, während GPT-2 unsinnigen Text produzierte, fanden Forscher heraus.
Die Aufnahme in den Gedichtkanon war der wichtigste Faktor dafür, ob der Chatbot ein Gedicht auswendig gelernt hatte, während Rasse, Geschlecht und Epoche des Dichters nicht so ausschlaggebend waren. Der zuverlässigste Indikator für das Auswendiglernen war, wenn das Gedicht in einer „Norton Anthology of Poetry“ erschienen wäre, insbesondere in der Ausgabe von 1983.
D'Souza bemerkte auch, dass sich die Antworten von ChatGPT im Laufe der Zeit veränderten, als sich das Modell weiterentwickelte. Als sie den Chatbot im Februar 2023 zum ersten Mal befragte, konnte dieser nicht sagen, dass er ein Gedicht nicht kannte – stattdessen würde er eines erfinden oder ein Gedicht eines anderen Autors recyceln. Wenn ChatGPT das Gedicht bis Juli 2023 nicht kannte, würde es fragen, ob das Gedicht überhaupt existierte – und dem Benutzer die Schuld geben.
Das beunruhigte D'Souza. „Da wir leistungsfähigere Tools haben, die uns sagen, dass sie alles wissen, wird es umso wichtiger sicherzustellen, dass wir nicht nur aus einer Quelle lernen“, sagte sie.
Darüber hinaus gab es für ChatGPT im Februar aufgrund des Urheberrechts keine Einschränkungen. Aber im Juli antwortete das Unternehmen manchmal, dass es kein urheberrechtlich geschütztes Gedicht produzieren könne. Allerdings würde es das Gedicht normalerweise reproduzieren, wenn man es noch einmal fragt, stellte D'Souza fest.
Diese Studie untersuchte nur amerikanische Dichter, aber der nächste Schritt wird darin bestehen, zu sehen, wie Chatbots auf Anfragen in verschiedenen Sprachen reagieren und ob Faktoren wie die Länge, der Metrum und das Reimmuster eines Gedichts dazu führen, dass es mehr oder weniger wahrscheinlich auswendig gelernt wird, D „Sagte Souza
„ChatGPT ist ein wirklich leistungsstarkes neues Tool, das wahrscheinlich in Zukunft Teil unseres Lebens sein wird“, sagte sie. „Es wird wirklich wichtig sein, herauszufinden, wie man es verantwortungsvoll und transparent nutzt.“