Bitten Sie chatgpt, ein bekanntes Gedicht zu finden, und es wird wahrscheinlich den gesamten Text wörtlich wiedergeben – unabhängig vom Urheberrecht – laut einer neuen Studie von Forschern der Cornell University.
Die Studie zeigte, dass ChatGPT in der Lage war, sich Gedichte zu „merken“, insbesondere berühmte Gedichte, die häufig online zu finden sind. Die Ergebnisse werfen ethische Fragen darüber auf, wie ChatGPT und andere proprietäre Modelle der künstlichen Intelligenz trainiert werden – wahrscheinlich mithilfe von Daten, die aus dem Internet stammen, sagten Forscher.
„Für große Sprachmodelle ist es im Allgemeinen nicht gut, sich große Textblöcke zu merken, auch weil es ein Datenschutzrisiko darstellt“, sagte Erstautorin Lyra D'Souza, eine ehemalige Informatikstudentin und Sommer-Forschungsassistentin. „Wir wissen nicht, worauf sie trainiert werden, und oft können private Unternehmen proprietäre Modelle auf Basis unserer privaten Daten trainieren.“
D'Souza präsentierte seine Arbeit „The Chatbot and the Canon: Poetry Memorization in LLMs“ auf der Computational Humanities Research Conference.
„Wir haben uns aus mehreren Gründen für Gedichte entschieden“, sagte der leitende Autor David Mimno, außerordentlicher Professor für Informationswissenschaft. „Sie sind kurz genug, um in die Kontextgröße eines Sprachmodells zu passen. Ihr Status ist kompliziert: Viele der von uns untersuchten Gedichte unterliegen technisch gesehen dem Urheberrecht, sind aber auch bei seriösen Quellen wie der Poetry Foundation weithin erhältlich.“
D'Souza testete die Fähigkeiten von ChatGPT und drei anderen Sprachmodellen zum Abrufen von Gedichten: PaLM von google AI, Pythia vom gemeinnützigen KI-Forschungsinstitut EleutherAI und GPT-2, eine frühere Version des Modells, aus dem letztendlich ChatGPT hervorging, wurden beide entwickelt von OpenAI. Sie erfand eine Reihe von Gedichten von 60 amerikanischen Dichtern aus unterschiedlichen Epochen, Rassen, Geschlechtern und Bekanntheitsgraden und gab den Models Eingabeaufforderungen, in denen sie nach dem Text der Gedichte fragte.
Der zuverlässigste Indikator für das Auswendiglernen war, wenn das Gedicht in einer Norton Anthology of Poetry erschienen wäre, insbesondere in der Ausgabe von 1983.
D'Souza bemerkte, dass sich die Antworten von ChatGPT im Laufe der Zeit veränderten, als sich das Modell weiterentwickelte. Als sie den Chatbot im Februar 2023 zum ersten Mal befragte, konnte dieser nicht sagen, dass er ein Gedicht nicht kannte – stattdessen würde er eines erfinden oder ein Gedicht eines anderen Autors recyceln. Wenn ChatGPT das Gedicht bis Juli 2023 nicht kannte, würde es fragen, ob das Gedicht überhaupt existierte – und dem Benutzer die Schuld geben.
Darüber hinaus gab es für ChatGPT im Februar aufgrund des Urheberrechts keine Einschränkungen. Aber im Juli antwortete das Unternehmen manchmal, dass es kein urheberrechtlich geschütztes Gedicht produzieren könne. Allerdings würde es das Gedicht normalerweise reproduzieren, wenn man es noch einmal fragt, stellte D'Souza fest.
Diese Studie untersuchte nur amerikanische Dichter, aber der nächste Schritt wird darin bestehen, zu sehen, wie Chatbots auf Anfragen in verschiedenen Sprachen reagieren und ob Faktoren wie die Länge, der Metrum und das Reimmuster eines Gedichts dazu führen, dass es mehr oder weniger wahrscheinlich auswendig gelernt wird, D „Sagte Souza
„ChatGPT ist ein wirklich leistungsstarkes neues Tool, das wahrscheinlich in Zukunft Teil unseres Lebens sein wird“, sagte sie. „Es wird wirklich wichtig sein, herauszufinden, wie man es verantwortungsvoll und transparent nutzt.“