[ad_1]
Seit ChaptGPT und andere Large Language Models (LLMs) auf den Markt kamen, tauchen immer wieder Fragen auf, ob die Technologie das Potenzial hat, rassistische und kulturelle Vorurteile aufrechtzuerhalten.
Julian Nyarko, Professor an der Stanford Law School, der sich in seiner Forschung hauptsächlich auf algorithmische Fairness und Rechenmethoden konzentriert, stand in den letzten Jahren bei vielen dieser Untersuchungen an vorderster Front. Seine neueste Arbeit, „Was ist in einem Namen? Prüfung großer Sprachmodelle auf Rassen- und Geschlechterverzerrung“, macht einige überraschende Beobachtungen darüber, wie die beliebtesten LLMs bestimmte Abfragen behandeln, die Vor- und Nachnamen enthalten, die auf Rasse oder Geschlecht hinweisen.
Wenn Sie beispielsweise chatgpt-4 um Rat fragen, wie viel Sie für ein gebrauchtes Fahrrad bezahlen sollten, das von jemandem namens Jamal Washington verkauft wird, erhalten Sie einen anderen – weitaus niedrigeren – Dollarbetrag als bei derselben Anfrage, bei der der Name eines Verkäufers wie Logan Becker verwendet wird. das würde allgemein als einem weißen Mann zugehörig angesehen werden. „Es kostet 150 US-Dollar für weiß klingende Namen und 75 US-Dollar für schwarz klingende Namen“, sagt Nyarko, der außerdem stellvertretender Direktor und Senior Fellow am Stanford Institute for Human-Centered AI (HAI) ist. „Andere Szenarien, zum Beispiel im Bereich Autoverkäufe, zeigen eine geringere Ungleichheit, aber dennoch eine Ungleichheit.“
Dem Papier zufolge erzielen Namen, die mit schwarzen Frauen in Verbindung gebracht werden, die schlechtesten Ergebnisse.
Nyarko war Co-Autor Was ist in einem Namen mit Hauptautor Amit Haim, JSD '24 (JSM '20) und SLS-Forschungsmitarbeiter Alejandro Salinas. Was ihre Studie von anderen ähnlichen Untersuchungen zum LLM-Bias unterscheidet, sagen die Autoren, ist die Verwendung eines Prüfungsdesigns als Rahmen für ihre Studie. Bei Prüfungsentwürfen handelt es sich um empirische Methoden, mit denen der Grad der Voreingenommenheit in verschiedenen Bereichen der Gesellschaft, beispielsweise Wohnen und Beschäftigung, ermittelt und gemessen werden soll. Eines der bekanntesten Beispiele ist die Studie aus dem Jahr 2003, in der Forscher Lebensläufe für verschiedene Stellen einreichten, wobei sie nur den Namen des Bewerbers variierten und stereotype afroamerikanische, weiße, männliche und weibliche Namen verwendeten.
Hier erklärt Nyarko, wie er und seine Co-Autoren dieselbe Methodik auf den Bereich der LLMs übertragen haben, was uns die Ergebnisse sagen und was getan werden sollte.
Können Sie zunächst einen kleinen Hintergrund und Kontext für die Studie liefern? Viele Leute würden vielleicht erwarten, dass LLMs den Namen einer Person als neutralen Datenpunkt behandeln würden, aber das ist Ihren Untersuchungen zufolge überhaupt nicht der Fall?
Wenn jemand eine Abfrage an ein Sprachmodell sendet, möchte er im Idealfall eine Antwort sehen, die nicht auf den Namen einer Person reagiert, selbst wenn er der Abfrage den Namen einer Person hinzufügt. Aber am Ende des Tages erstellen diese Modelle nur das wahrscheinlichste nächste Token – oder das wahrscheinlichste nächste Wort – basierend auf der Art und Weise, wie sie trainiert wurden. Nehmen wir also an, ein Teil der Trainingsdaten sind Craigslist-Beiträge. Wenn ein Auto von einer schwarzen Person oder einer Person mit einem schwarz klingenden Namen verkauft wird, wird es auf Craigslist tendenziell günstiger verkauft als ein Auto desselben Typs, das von einer weißen Person oder einer Person mit einem weiß klingenden Namen verkauft wird. klingender Name. Dies geschieht aus vielen Gründen, beispielsweise weil der schwarze Autoverkäufer mit größerer Wahrscheinlichkeit in einer ärmeren Gemeinde lebt, in der es weniger Geld gibt. Wenn Sie also eines dieser Modelle um Rat fragen, wie viel Sie für einen Gebrauchtwagen bieten sollten, und die einzigen zusätzlichen Daten, die Sie angeben, der Name des Verkäufers ist, geht das Modell implizit davon aus, dass die nächsten Token nach dem Angebot, das Sie haben was machen sollte, sind vielleicht „10.000 US-Dollar“ im Gegensatz zu „12.000 US-Dollar“. Es ist ein wenig schwierig, das mit der menschlichen Entscheidungsfindung zu vergleichen, wo es so etwas wie eine Absicht gibt. Und diese Modelle haben nicht die gleiche Absicht. Aber sie lernen diese Zusammenhänge in den Daten und reproduzieren sie dann, wenn sie abgefragt werden.
Welche Arten von Vorurteilen haben Sie untersucht?
Unsere Forschung konzentriert sich auf fünf Szenarien, in denen ein Benutzer Rat von einem LLM einholen könnte: Strategien für den Kauf eines Gegenstands wie eines Autos oder Fahrrads, die darauf ausgelegt sind, Voreingenommenheit im Bereich des sozioökonomischen Status zu beurteilen; Fragen zu wahrscheinlichen Ergebnissen im Schach, was die Frage der intellektuellen Fähigkeiten betrifft; die Frage, wer mit größerer Wahrscheinlichkeit ein öffentliches Amt gewinnen könnte, wobei es um Wählbarkeit und Beliebtheit geht; sportliche Begabung und die Suche nach Rat im Zusammenhang mit der Unterbreitung eines Stellenangebots an jemanden.
Gibt es eine Möglichkeit, einen Drilldown in den Code oder das „Backend“ der LLMs durchzuführen, um zu sehen, was aus technischer Sicht vor sich geht?
Die meisten dieser neueren LLMs, an die die Leute am meisten gewöhnt sind, wie ChatGPT-4, sind in der Regel Closed-Source-Lösungen. Bei Open-Source-Modellen können Sie es aufschlüsseln und auf technische Weise das Modell betrachten und sehen, wie es trainiert wird. Und wenn Sie über die Trainingsdaten verfügen, können Sie prüfen, ob das Modell so trainiert wurde, dass es möglicherweise Unterschiede kodiert. Aber bei den Closed-Source-Modellen muss man andere Wege zur Untersuchung finden. Die schöne Parallele hier ist der menschliche Geist und die Entscheidungsfindung. Mit Menschen können wir Strategien entwickeln, um in die Köpfe der Menschen zu schauen und festzustellen, ob ihre Entscheidungen auf diskriminierenden Beweggründen beruhen. In diesem Zusammenhang wurden Audit-Studien entwickelt, bei denen beispielsweise zwei Käufer unterschiedlicher Rassen ein Auto oder ein Haus mit genau den gleichen externen Variablen kaufen, etwa der Kleidung, die sie tragen usw. Und die Studie untersucht, welche Art von Autos ihnen angeboten werden oder welche Arten von Häusern es gibt. Eine der bekanntesten Studienarten dieser Art sind Lebensläufe, bei denen bis auf die Namen alle Informationen im Lebenslauf gleich waren.
Daher dachten wir, dass dieser Ansatz im Kontext eines großen Sprachmodells verwendet werden kann, um indirekt zu testen, ob diese Unterschiede fest verankert sind.
Ihre Studie verfolgte einen neuen Ansatz für diese Art von Studien und untersuchte das Potenzial von LLMs, rassistische und geschlechtsspezifische Vorurteile aufrechtzuerhalten. Ist das richtig?
Es gibt einige Studien, die in der Vergangenheit versucht haben, etwas Ähnliches zu tun, zum Beispiel Lebenslaufstudien zu GPT, die untersuchen, ob jemand mit dem Namen Lakeisha als weniger beschäftigungsfähig gilt als jemand mit einem Namen, der weniger stereotypisch schwarz ist. Aber diese Studien haben sich in erster Linie mit der Frage beschäftigt: Soll ich diese Person einstellen? Ja oder nein. Diese Studien kamen zu gemischten Ergebnissen. Wenn Sie nach einem binären Ja oder Nein fragen, verstehen Sie die Nuancen nicht. Basierend auf früheren Untersuchungen war außerdem nicht ganz klar, inwieweit diese Modelle verzerrt waren. Wir haben herausgefunden, dass man ein viel klareres und differenzierteres Bild von der Voreingenommenheit erhält, wenn man zu einer offenen Frage übergeht – zum Beispiel: „Wie viel soll ich zahlen oder wie hoch ist die Wahrscheinlichkeit, dass dieser oder jener Kandidat eine Wahl gewinnt“. codiert.
Wie groß sind die von Ihnen aufgedeckten Unterschiede?
Die Verzerrungen sind bei 42 Eingabeaufforderungsvorlagen und mehreren Modellen konsistent und deuten eher auf ein systemisches Problem als auf isolierte Vorfälle hin. Eine Ausnahme bildete das „Schach“-Szenario, das wir entworfen hatten, um zu prüfen, ob das Modell einen niedrigeren IQ für Minderheiten annimmt. Bei den gestellten Fragen ging es darum, wer eine Schachpartie mit größerer Wahrscheinlichkeit gewinnen würde. Während wir unterschiedliche Ergebnisse zwischen den Geschlechtern fanden – die Modelle sagten häufiger voraus, dass ein Mann gewinnen würde, als dass sie vorhersagen würden, dass eine Frau gewinnen würde – fanden wir im Schachkontext keine Unterschiede zwischen den Rassen.
In einigen Bereichen waren die Unterschiede recht groß. Im Beispiel des Fahrradverkaufs sahen wir eine erhebliche Lücke zwischen Schwarz und Weiß, wobei der dem weißen Verkäufer angebotene Preis doppelt so hoch war wie der des schwarzen Verkäufers. Etwas weniger war es im Bereich des Autoverkaufs. Ein Unterschied von 18.000 $ gegenüber 16.000 $. Das Modell geht tendenziell davon aus, dass schwarze Basketballspieler besser sind als weiße Spieler, und Stadtratskandidaten mit weiß klingenden Namen werden mit größerer Wahrscheinlichkeit eine Wahl gewinnen als solche mit schwarz klingenden Namen.
Verändert es die Ergebnisse, wenn Sie zusätzliche Daten wie das Baujahr eines Autos oder andere Details eingeben?
Wir haben herausgefunden, dass die Bereitstellung numerischer, entscheidungsrelevanter Anker in der Eingabeaufforderung den Verzerrungen zwar erfolgreich entgegenwirken kann, qualitative Details jedoch inkonsistente Auswirkungen haben und sogar die Disparitäten verstärken können. Wenn Sie einfach fragen: „Wie viel soll ich für ein Auto bieten, für welches Auto?“, zusammen mit einem der in unserer Studie verwendeten Namen, verfügt das Modell nur über sehr wenige Informationen und muss sich auf codierte Näherungen dessen verlassen, was es gelernt hat Das könnte sein: Schwarze haben normalerweise weniger Geld und fahren schlechtere Autos. Aber dann haben wir eine High-Context-Bedingung, bei der wir „Toyota Corolla 2015“ hinzufügen, und wie erwartet sehen Sie mit dem zusätzlichen Kontext, dass die Verzerrung abnimmt, obwohl wir das nicht jedes Mal gesehen haben. Tatsächlich nahmen die Vorurteile manchmal zu, wenn wir den Modellen mehr Kontext gaben. Es gibt jedoch eine Bedingung, die wir als numerische Bedingung bezeichnen und der wir einen bestimmten Quantor als Anker zugewiesen haben. So würden wir zum Beispiel sagen: „Wie viel sollte ich für dieses Auto bieten, das einen Kelley Blue Book-Wert von 15.000 US-Dollar hat?“ Was wir durchweg gesehen haben, ist, dass das Modell jedes Mal die gleiche Antwort ohne Verzerrungen liefert, wenn Sie diesen Quantor als Anker angeben.
Was führt zu der Frage, was angesichts Ihrer Studie zu tun ist? Verfügen diese LLMs bereits über Systeme, um dieser Art von Vorurteilen entgegenzuwirken, und was kann oder sollte sonst noch getan werden?
Auf technischer Seite ist die Frage, wie diese Vorurteile gemildert werden können, immer noch ein offenes Forschungsfeld. Wir wissen, dass OpenAI beispielsweise erhebliche Leitplanken in seinen Modellen aufweist. Wenn Sie zu direkt nach Unterschieden zwischen Geschlecht oder Rasse fragen, wird das Modell Ihnen in den meisten Kontexten einfach keine eindeutige Antwort geben. Ein Ansatz könnte daher darin bestehen, diese Leitplanken auszuweiten, um auch Ungleichheiten abzudecken, die in Prüfungsstudien festgestellt wurden. Aber das ist ein bisschen wie ein Whac-a-Mole-Spiel, bei dem Probleme Stück für Stück behoben werden müssen, sobald sie entdeckt werden. Insgesamt ist die Frage, wie Modelle entzerrt werden können, immer noch ein sehr aktives und exploratives Forschungsgebiet.
Dennoch denke ich, dass wir zumindest wissen sollten, dass diese Vorurteile existieren, und dass Unternehmen, die LLMs einsetzen, diese Vorurteile testen sollten. Diese Prüfungsdesigntests können wirklich einfach implementiert werden, aber es gibt viele schwierige Fragen. Denken Sie über einen Finanzberatungs-Chatbot nach. Um ein gutes Benutzererlebnis zu gewährleisten, wird der Chatbot höchstwahrscheinlich Zugriff auf den Namen des Benutzers haben. Das Beispiel, an das ich gerne denke, ist ein Chatbot, der Benutzern mit schwarz klingenden Namen konservativere Ratschläge gibt als solchen mit weiß klingenden Namen. Nun ist es so, dass Benutzer mit schwarz klingenden Namen aufgrund sozioökonomischer Unterschiede im Durchschnitt tendenziell über weniger wirtschaftliche Ressourcen verfügen. Und es stimmt: Je geringer Ihre wirtschaftlichen Ressourcen sind, desto konservativer sollte die Anlageberatung sein. Wenn Sie mehr Geld haben, können Sie abenteuerlicher mit Ihrem Geld umgehen. Wenn also ein Modell Personen mit unterschiedlichen Namen unterschiedliche Ratschläge gibt, könnte dies auf lange Sicht zu zufriedeneren Benutzern führen. Aber egal, was man über die Zweckmäßigkeit der Verwendung von Namen als Indikator für den sozioökonomischen Status denken mag, ihre Verwendung sollte immer die Folge eines bewussten Entscheidungsprozesses und kein unbewusstes Merkmal des Modells sein.
Julian Nyarko ist Professor für Rechtswissenschaften an der Stanford Law School, wo er neue Computermethoden einsetzt, um Fragen von rechtlicher und sozialwissenschaftlicher Bedeutung zu untersuchen. Sein besonderes Interesse gilt dem Einsatz künstlicher Intelligenz bei der Untersuchung von Vertragsrecht und Vertragsgestaltung. Darüber hinaus schreibt Professor Nyarko häufig über algorithmische Fairness und Berechnungsmethoden. Neben juristischen Fachzeitschriften und Rechtsrezensionen wurde es auch in führenden Fachzeitschriften in den Bereichen Allgemeinwissenschaften, Informatik und Politikwissenschaft veröffentlicht. Weitere Informationen, einschließlich Lebenslauf, Forschung, Daten und Code von Professor Nyarko, finden Sie in seinem persönlichen Profil Webseite.
[ad_2]