Bitten Sie chatgpt, ein bekanntes Gedicht zu finden, und es wird wahrscheinlich den gesamten Text wörtlich wiedergeben – unabhängig vom Urheberrecht – laut einer neuen Studie von Cornell-Forschern.

Die Studie zeigte, dass ChatGPT, ein großes Sprachmodell, das Text auf Abruf generiert, in der Lage ist, sich Gedichte zu „merken“, insbesondere berühmte, die häufig online zu finden sind. Die Ergebnisse werfen ethische Fragen darüber auf, wie ChatGPT und andere proprietäre Modelle der künstlichen Intelligenz trainiert werden – wahrscheinlich mithilfe von Daten, die aus dem Internet stammen, sagten Forscher.

„Für große Sprachmodelle ist es im Allgemeinen nicht gut, sich große Textblöcke zu merken, auch weil es ein Datenschutzrisiko darstellt“, sagte Erstautorin Lyra D'Souza '23, eine ehemalige Informatikstudentin und Sommerforschungsassistentin. „Wir wissen nicht, worauf sie trainiert werden, und oft können private Unternehmen proprietäre Modelle auf Basis unserer privaten Daten trainieren.“

D'Souza präsentierte diese Arbeit: „Der Chatbot und der Kanon: Auswendiglernen von Gedichten in LLMs“, auf der Computational Humanities Research Conference am 6. Dezember in Paris.

„Wir haben uns aus mehreren Gründen für Gedichte entschieden“, sagte der leitende Autor David Mimno, außerordentlicher Professor für Informationswissenschaft am Cornell Ann S. Bowers College of Computing and Information Science. „Sie sind kurz genug, um in die Kontextgröße eines Sprachmodells zu passen. Ihr Status ist kompliziert: Viele der von uns untersuchten Gedichte unterliegen technisch gesehen dem Urheberrecht, sind aber auch bei seriösen Quellen wie der Poetry Foundation weithin erhältlich. Und es handelt sich nicht um irgendein Dokument. Gedichte sollen überraschen, sie sollen den Menschen etwas bedeuten. In gewisser Weise wollen Gedichte auswendig gelernt werden.“

Siehe auch  ChatGPT bietet Preisvorhersagen für Bitcoin Cash, Ethereum Classic und Bitcoin Minetrix

ChatGPT und andere große Sprachmodelle werden darauf trainiert, Text zu generieren, indem sie auf der Grundlage ihrer Trainingsdaten, bei denen es sich hauptsächlich um Webseiten handelt, immer wieder das wahrscheinlichste nächste Wort vorhersagen. Das Auswendiglernen kann erfolgen, wenn diese Trainingsdaten doppelte Passagen enthalten, da die Duplizierung diese spezifische Wortfolge verstärkt. Nachdem das Modell beispielsweise wiederholt mit demselben Gedicht konfrontiert wurde, reproduziert es standardmäßig die Worte des Gedichts wörtlich.

D'Souza testete die Fähigkeiten von ChatGPT und drei anderen Sprachmodellen zum Abrufen von Gedichten: PaLM von google AI, Pythia vom gemeinnützigen KI-Forschungsinstitut EleutherAI und GPT-2, eine frühere Version des Modells, aus dem letztendlich ChatGPT hervorging, wurden beide entwickelt von OpenAI. Sie erfand eine Reihe von Gedichten von 60 amerikanischen Dichtern aus unterschiedlichen Epochen, Rassen, Geschlechtern und Bekanntheitsgraden und gab den Models Eingabeaufforderungen, in denen sie nach dem Text der Gedichte fragte.

ChatGPT hat 72 der 240 Gedichte erfolgreich abgerufen, während PaLM nur 10 gefunden hat. Weder Pythia noch GPT-2 konnten ganze Gedichte produzieren. Pythia antwortete immer wieder mit demselben Satz, während GPT-2 unsinnigen Text produzierte, fanden Forscher heraus.

Die Aufnahme in den Gedichtkanon war der wichtigste Faktor dafür, ob der Chatbot ein Gedicht auswendig gelernt hatte, während Rasse, Geschlecht und Epoche des Dichters nicht so ausschlaggebend waren. Der zuverlässigste Indikator für das Auswendiglernen war, wenn das Gedicht in einer Norton Anthology of Poetry erschienen wäre, insbesondere in der Ausgabe von 1983.

D'Souza bemerkte auch, dass sich die Antworten von ChatGPT im Laufe der Zeit veränderten, als sich das Modell weiterentwickelte. Als sie den Chatbot im Februar 2023 zum ersten Mal befragte, konnte dieser nicht sagen, dass er ein Gedicht nicht kannte – stattdessen würde er eines erfinden oder ein Gedicht eines anderen Autors recyceln. Wenn ChatGPT das Gedicht bis Juli 2023 nicht kannte, würde es fragen, ob das Gedicht überhaupt existierte – und dem Benutzer die Schuld geben.

Siehe auch  Der Showrunner von Black Mirror hat versucht, eine Episode mit ChatGPT zu schreiben – es stellte sich als „Scheiße“ heraus

Das beunruhigte D'Souza. „Da wir über leistungsfähigere Tools verfügen, die uns sagen, dass sie alles wissen, wird es umso wichtiger sicherzustellen, dass wir nicht nur aus einer Quelle lernen“, sagte sie.

Darüber hinaus gab es für ChatGPT im Februar aufgrund des Urheberrechts keine Einschränkungen. Aber im Juli antwortete das Unternehmen manchmal, dass es kein urheberrechtlich geschütztes Gedicht produzieren könne. Allerdings würde es das Gedicht normalerweise reproduzieren, wenn man es noch einmal fragt, stellte D'Souza fest.

Diese Studie untersuchte nur amerikanische Dichter, aber der nächste Schritt wird darin bestehen, zu sehen, wie Chatbots auf Anfragen in verschiedenen Sprachen reagieren und ob Faktoren wie die Länge, der Metrum und das Reimmuster eines Gedichts dazu führen, dass es mehr oder weniger wahrscheinlich auswendig gelernt wird, D „Sagte Souza

„ChatGPT ist ein wirklich leistungsstarkes neues Tool, das wahrscheinlich in Zukunft Teil unseres Lebens sein wird“, sagte sie. „Es wird wirklich wichtig sein, herauszufinden, wie man es verantwortungsvoll und transparent nutzt.“

Diese Forschung wurde vom vom National Endowment for the Humanities finanzierten AI for Humanists-Projekt unterstützt.

Patricia Waldron ist Autorin am Cornell Ann S. Bowers College of Computing and Information Science.

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.