- Unternehmen wie OpenAI stehen wegen der Verwendung von urheberrechtlich geschütztem Material zunehmend unter Beobachtung.
- Laut einer neuen Studie versucht chatgpt nun, solche Arbeiten nicht zu zeigen.
- Anfragen zu Harry-Potter-Büchern haben gezeigt, wie häufig die Verwendung urheberrechtlich geschützter Werke in LLMs vorkommt.
Laut einer neuen Studie versucht ChatGPT zu verbergen, dass es auf urheberrechtlich geschütztem Material trainiert wurde.
ChatGPT von OpenAI und im Wesentlichen alle anderen großen Sprachmodelle oder LLMs wurden mit riesigen Daten- und Textmengen aus dem Internet trainiert, darunter viele Bücher, die weiterhin dem Urheberrecht unterliegen. Das Unternehmen ist zunehmend in die Kritik geraten, weil es solche Arbeiten nutzt, ohne für die Informationen durch Lizenzverträge oder andere Genehmigungen zu bezahlen. Das hat zu Klagen von Autoren geführt.
Die Reaktion von OpenAI und Unternehmen wie google, Meta und Microsoft bestand größtenteils darin, nicht mehr offenzulegen, auf welchen Daten ihre KI-Modelle trainiert werden.
Jetzt ist OpenAI noch einen Schritt weiter gegangen, wie aus einem neuen Forschungsbericht hervorgeht.
Laut einem technischen Dokument, das am 8. August von einer Gruppe von KI-Wissenschaftlern veröffentlicht wurde, die für die Forschungsabteilung von ByteDance, dem Eigentümer von TikTok, arbeiten, versucht ChatGPT nun zu vermeiden, auf Benutzeraufforderungen mit exakten Formulierungen aus urheberrechtlich geschützten Werken zu reagieren.
Der Forschung konzentrierte sich darauf, wie LLMs durch verschiedene „Ausrichtungs“-Techniken zur Verbesserung der Genauigkeit in ihren Ergebnissen „vertrauenswürdiger“ gemacht werden können, gab jedoch zu, dass KI-Tools, die zeigen, dass sie mit urheberrechtlich geschütztem Material trainiert wurden, „Besorgnis“ für KI-Unternehmen hervorriefen.
Um nicht den Anschein zu erwecken, dass es auf solchem Material trainiert wurde, unterbricht ChatGPT nun „die Ausgaben, wenn man versucht, kontinuierlich den nächsten Satz zu extrahieren … was in der vorherigen Version von ChatGPT nicht der Fall war“, schreiben die Forscher. „Wir spekulieren, dass ChatGPT-Entwickler einen Mechanismus implementiert haben, um zu erkennen, ob die Eingabeaufforderungen darauf abzielen, urheberrechtlich geschützte Inhalte zu extrahieren oder die Ähnlichkeit zwischen den generierten Ausgaben und urheberrechtlich geschützten Inhalten zu überprüfen.“
Trotz dieser Bemühungen zeigte ChatGPT immer noch urheberrechtlich geschütztes Material, heißt es in der Zeitung. Wie viele andere KI-Modelle auch, da sie auf riesigen Mengen urheberrechtlich geschützten Materials trainiert wurden. Die Forscher testeten alle Versionen von ChatGPT, OPT-1.3B von Meta, FLAN-T5 von Google, ChatGLM von der Tsinghua University China und DialoGPT von Microsoft – alle reagierten auf mehrere Aufforderungen basierend auf der Harry-Potter-Buchreihe von JK Rowling mit Phrasen und Werke, die genau oder fast genau zu den Büchern passen. Einige Antworten unterschieden sich dem Papier zufolge nur um ein oder zwei Wörter.
„Alle LLMs geben Text aus, der eher urheberrechtlich geschützten Inhalten ähnelt als zufällig generierter Text“, heißt es in dem Papier. Es wurde außerdem festgestellt, dass keine noch so große „Anpassung“ oder Anpassung der Ausgaben die Anzeige urheberrechtlich geschützter Werke verhindert, „weil Urheberrechtsverluste eher davon abhängen, ob die Trainingsdaten urheberrechtlich geschützten Text enthalten, als von der Ausrichtung selbst.“
Der Buchagent von OpenAI und JK Rowling reagierte nicht auf Anfragen nach Kommentaren.
Das Papier bezeichnet KI-Modelle, die mit urheberrechtlich geschütztem Material reagieren, als „Leakage“. Die Forscher vermuteten, dass Benutzer, die diese Modelle dazu auffordern, urheberrechtlich geschützte Werke zu zeigen, die Technologie „missbrauchen“.
Das Papier verwies auch auf die offensichtliche Arbeit von ChatGPT, die urheberrechtlich geschützten Werke, an denen es trainiert wurde, zu verbergen, als positives Beispiel dafür, wie andere KI-Tools „urheberrechtlich geschützte Inhalte in LLMs schützen können, indem sie böswillig gestaltete Eingabeaufforderungen erkennen“.
Sind Sie ein technischer Mitarbeiter oder jemand anderes, der Einblicke mitteilen möchte? Kontaktieren Sie Kali Hays unter [email protected]in der sicheren Messaging-App Signal unter 949-280-0267 oder per Twitter-DM unter @hayskali. Nehmen Sie Kontakt auf, indem Sie ein Gerät verwenden, das nicht für die Arbeit geeignet ist.