In einer Studie mit dem Titel „DecodingTrust: Eine umfassende Bewertung der Vertrauenswürdigkeit in GPT-Modellen“ haben sich Forscher der University of Illinois Urbana-Champaign, der Stanford University, der University of California, Berkeley, des Center for AI Safety und von Microsoft Research eingehend mit der Vertrauenswürdigkeit befasst von generativen Pre-Trained Transformer (GPT)-Modellen. Das Papier, das als mündlicher Vortrag auf der NeurIPS 2023 Aufmerksamkeit erregte, rückt die Modelle GPT-4 und GPT-3.5 ins Rampenlicht.

Die umfassende Bewertung umfasste ein breites Spektrum an Perspektiven, darunter Toxizität, stereotype Voreingenommenheit, kontroverse Robustheit, Out-of-Distribution-Robustheit, Datenschutz, Maschinenethik und Fairness. Die Erkenntnisse des Teams deckten bisher unbekannte Schwachstellen in der Vertrauenswürdigkeit dieser Modelle auf. Sie fanden insbesondere heraus, dass GPT-Modelle dazu verleitet werden können, toxische und voreingenommene Ergebnisse zu erzeugen, und dass sie unbeabsichtigt private Daten aus dem Trainings- und Gesprächsverlauf preisgeben können. Interessanterweise übertrifft GPT-4 in Standard-Benchmarks häufig GPT-3.5, ist jedoch anfälliger für böswillig erstellte Eingabeaufforderungen, die darauf abzielen, die Sicherheitsfunktionen dieser Sprachmodelle zu umgehen.

Die Forscher stellten fest: „Obwohl GPT-4 bei Standard-Benchmarks normalerweise vertrauenswürdiger ist als GPT-3.5, ist GPT-4 anfälliger gegenüber Jailbreaking-Systemen oder Benutzeraufforderungen, die in böswilliger Absicht dazu dienen, die Sicherheitsmaßnahmen von LLMs zu umgehen, möglicherweise weil GPT- 4 folgt (irreführenden) Anweisungen genauer.“

Eine entscheidende Erkenntnis aus der Forschung war das vom Team eingerichtete Benchmarking-System, das sie öffentlich zugänglich gemacht haben. Sie hoffen, dass dies die weitere Forschung auf diesem Gebiet vorantreiben und der potenziellen Ausnutzung von Schwachstellen durch böswillige Akteure vorbeugen wird.

Die Zusammenarbeit des Teams mit Microsoft-Produktgruppen bestätigte, dass die identifizierten Schwachstellen keine Risiken für aktuelle kundenorientierte Dienste darstellen. Diese Sicherheit ergibt sich aus der Tatsache, dass KI-Anwendungen strenge Schadensbegrenzungsverfahren durchlaufen, um potenziellen Schäden entgegenzuwirken, die auf Modellebene entstehen könnten. Die Forscher haben auch mit OpenAI, dem GPT-Entwickler, Kontakt aufgenommen, der die potenziellen Schwachstellen in seinen Systemkarten für relevante Modelle erkannt hat.

Siehe auch  Erstellen einer Android-App mit ChatGPT | von Yancy Dennis | Dez. 2023

Das umfassendere Ziel besteht, wie von den Forschern ausgedrückt, darin, „andere in der Forschungsgemeinschaft zu ermutigen, diese Arbeit zu nutzen und darauf aufzubauen, um möglicherweise schändlichen Handlungen von Gegnern zuvorzukommen, die Schwachstellen ausnutzen würden, um Schaden anzurichten.“

Die Forschung unterstreicht auch die erheblichen Fortschritte beim maschinellen Lernen, insbesondere bei großen Sprachmodellen, die in verschiedenen Bereichen Anwendung finden, von Chatbots bis hin zur Robotik. Der Fokus auf Vertrauenswürdigkeit ist von größter Bedeutung, insbesondere da GPT-Modelle für sensible Sektoren wie das Gesundheitswesen und das Finanzwesen in Betracht gezogen werden.

In ihrem Fazit betonten die Forscher die Notwendigkeit, diese Arbeit fortzusetzen. Sie erklärten: „Diese Vertrauenswürdigkeitsbewertung ist nur ein Ausgangspunkt, und wir hoffen, mit anderen zusammenzuarbeiten, um auf den Erkenntnissen aufzubauen und für die Zukunft leistungsfähigere und vertrauenswürdigere Modelle zu entwickeln.“

Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein