Pünktlich zum einjährigen Jubiläum von chatgpt veröffentlichte eine Gruppe von Forschern von Google einen Artikel, der zeigt, wie einfach es ist, die geschäftige Technologie von OpenAI zu knacken.
Der Papier, veröffentlicht am Dienstag, bietet einen Einblick, wie Wissenschaftler an der Spitze der Forschung im Bereich der künstlichen Intelligenz – für manche ein äußerst gut bezahlter Job – die Grenzen beliebter Produkte in Echtzeit testen. Google und sein KI-Labor DeepMind, in dem die meisten Autoren des Papiers arbeiten, befinden sich in einem Wettlauf darum, wissenschaftliche Fortschritte in lukrative und nützliche Produkte umzuwandeln, bevor Konkurrenten wie OpenAI und Meta als Erste ans Ziel kommen.
Die Studie befasst sich mit der „Extraktion“, einem „kontroversen“ Versuch herauszufinden, welche Daten möglicherweise zum Trainieren eines KI-Tools verwendet wurden. KI-Modelle „merken sich Beispiele aus ihren Trainingsdatensätzen, die es einem Angreifer ermöglichen können, (potenziell private) Informationen zu extrahieren“, schreiben die Forscher. Der Datenschutz ist von entscheidender Bedeutung: Wenn KI-Modelle irgendwann auf persönliche Daten trainiert werden, könnten Verstöße gegen ihre Trainingsdaten Bank-Logins, Privatadressen und mehr offenlegen.
ChatGPT, fügte das Google-Team in einem hinzu Blogeintrag Wie das Papier ankündigt, ist es „darauf ausgerichtet“, keine großen Mengen an Trainingsdaten auszuspucken. Aber indem wir einen Angriff entwickeln, können wir genau das erreichen.“ Ausrichtung bezieht sich in der KI auf die Versuche von Ingenieuren, das Verhalten der Technik zu steuern. Die Forscher stellten außerdem fest, dass es sich bei ChatGPT um ein Produkt handelt, das zur öffentlichen Nutzung auf den Markt gebracht wurde, im Gegensatz zu früheren KI-Modellen in der Produktionsphase, die Extraktionsversuchen zum Opfer fielen.
Werbung
Der Artikel wird unter dieser Anzeige fortgesetzt
Der „Angriff“, der funktionierte, war so einfach, dass die Forscher ihn in ihrem Blogbeitrag sogar als „albern“ bezeichneten: Sie baten ChatGPT einfach, das Wort „Gedicht“ für immer zu wiederholen.
Sie fanden heraus, dass der Chatbot nach hunderten Wiederholungen des „Gedichts“ schließlich „abweicht“ oder seinen Standarddialogstil aufgibt und anfängt, unsinnige Phrasen auszuspucken. Als die Forscher den Trick wiederholten und sich die Ausgabe des Chatbots ansahen (nach den vielen, vielen „Gedichten“), begannen sie, Inhalte zu sehen, die direkt aus den Trainingsdaten von ChatGPT stammten. Sie hatten die „Extraktion“ auf einer kostengünstigen Version von herausgefundender weltweit berühmteste KI-Chatbot, „ChatGPT-3.5-turbo“.
Nachdem sie immer wieder ähnliche Abfragen durchgeführt hatten, hätten die Forscher nur 200 US-Dollar ausgegeben, um mehr als 10.000 Beispiele dafür zu erhalten, wie ChatGPT gespeicherte Trainingsdaten ausspuckte, schrieben sie.Dazu gehörten wörtliche Absätze aus Romanen, die persönlichen Daten von Dutzenden von Menschen, Ausschnitte aus Forschungsarbeiten und „NSFW-Inhalte“ von Dating-Sites, heißt es in der Zeitung.
404 Mediendas erstmals über das Papier berichtete, fand mehrere der Passagen online, unter anderem auf der Website von CNN, Goodreads, Fanseiten, Blogs und sogar in Kommentarbereichen.
Werbung
Der Artikel wird unter dieser Anzeige fortgesetzt
Die Forscher schrieben in ihrem Blogbeitrag: „Soweit wir das beurteilen können, ist bis zu diesem Artikel noch niemandem aufgefallen, dass ChatGPT Trainingsdaten mit so hoher Häufigkeit aussendet.“ Daher ist es besorgniserregend, dass Sprachmodelle solche latenten Schwachstellen aufweisen können.“
„Es ist auch besorgniserregend, dass es sehr schwierig ist, zwischen (a) tatsächlich sicher und (b) scheinbar sicher zu unterscheiden, es aber nicht ist“, fügten sie hinzu. Dem Forschungsteam gehörten neben Google auch Vertreter der UC Berkeley, der University of Washington, Cornell, Carnegie Mellon und der ETH Zürich an.
Die Forscher schrieben in dem Artikel, dass sie OpenAI am 30. August über die Schwachstelle von ChatGPT informiert hätten, was dem Startup Zeit gab, das Problem zu beheben, bevor das Team seine Ergebnisse veröffentlichte. Aber am Donnerstagnachmittag konnte SFGATE replizieren Das Thema: Wann fragte um nur das Wort „reif“ für immer zu wiederholen, die öffentliche und kostenlose Version vonChatGPT begann schließlich, anderen Text auszuspucken, darunter Zitate, die korrekterweise Richard Bach und Toni Morrison zugeschrieben wurden.
OpenAI reagierte nicht sofort auf die Bitte von SFGATE um einen Kommentar. Am Mittwoch begrüßte das Unternehmen Sam Altman offiziell wieder als CEO, nach einem dramatischen Sturz, der das Startup vor ein paar Wochen in Mitleidenschaft gezogen hatte.
Werbung
Der Artikel wird unter dieser Anzeige fortgesetzt