Als Kate Glazko, eine Doktorandin an der University of Washington, im letzten Jahr nach einem Forschungspraktikum suchte, bemerkte sie, dass Personalvermittler online posteten, dass sie OpenAIs ChatGPT und andere künstliche Intelligenz-Tools verwendet hätten, um Lebensläufe zusammenzufassen und Kandidaten zu bewerten. Die automatisierte Überprüfung hat ist seit Jahrzehnten gängige Praxis bei der Einstellung. Noch GlasgowDoktorand an der Paul G. Allen School of Computer Science & Engineering der UW, studiert wie generative KI reale Vorurteile reproduzieren und verstärken kann-so wie diese gegen behinderte MenschenSie fragte sich, wie ein solches System Lebensläufe bewerten könnte, aus denen hervorgeht, dass jemand eine Behinderung hat?
In einer neuen Studie stellten Forscher der University of Washington fest, dass ChatGPT Lebensläufe mit Auszeichnungen und Qualifikationen im Zusammenhang mit Behinderungen – wie etwa dem „Tom Wilson Disability Leadership Award“ – durchweg niedriger einstufte als die gleichen Lebensläufe ohne diese Auszeichnungen und Qualifikationen. Auf die Frage nach einer Erklärung für die Rangfolge spuckte das System voreingenommene Wahrnehmungen von Menschen mit Behinderungen aus. So behauptete es beispielsweise, ein Lebenslauf mit einer Auszeichnung für Autismus-Führungskräfte lege „weniger Wert auf Führungsrollen“ – was das Stereotyp impliziert, dass Autisten keine guten Führungskräfte seien.
Als die Forscher das Tool jedoch mit schriftlichen Anweisungen ergänzten, die es so einrichteten, dass es nicht behindertenfeindlich sei, reduzierte es diese Voreingenommenheit für alle getesteten Behinderungen außer einer. Fünf der sechs implizierten Behinderungen – Taubheit, Blindheit, Zerebralparese, Autismus und der allgemeine Begriff „Behinderung“ – verbesserten sich, aber nur drei schnitten besser ab als Lebensläufe, in denen Behinderung nicht erwähnt wurde.
Das Team präsentierte seine Erkenntnisse 5. Juni auf der ACM-Konferenz 2024 zu Fairness, Rechenschaftspflicht und Transparenz in Rio de Janeiro.
„Die Bewertung von Lebensläufen mithilfe von KI nimmt immer mehr zu, doch es gibt kaum Forschung darüber, ob dies sicher und effektiv ist“, sagte Glazko, der Hauptautor der Studie. „Für einen behinderten Arbeitssuchenden stellt sich bei der Einreichung eines Lebenslaufs immer die Frage, ob er seine Behinderungsnachweise angeben sollte. Ich denke, behinderte Menschen berücksichtigen das, auch wenn Menschen die Prüfer sind.“
Die Forscher nutzten den öffentlich zugänglichen Lebenslauf eines der Studienautoren, der etwa zehn Seiten umfasste. Anschließend erstellte das Team sechs erweiterte Lebensläufe, von denen jeder eine andere Behinderung implizierte, indem er vier behinderungsbezogene Qualifikationen enthielt: ein Stipendium, eine Auszeichnung, einen Sitz im Gremium für Vielfalt, Gleichberechtigung und Inklusion (DEI) und die Mitgliedschaft in einer Studentenorganisation.
Anschließend verwendeten die Forscher das GPT-4-Modell von ChatGPT, um diese erweiterten Lebensläufe mit der Originalversion für eine echte Stellenausschreibung für einen „Studentenforscher“ bei einem großen US-amerikanischen Softwareunternehmen zu vergleichen. Sie führten jeden Vergleich zehnmal durch; in 60 Versuchen platzierte das System die erweiterten Lebensläufe, die bis auf die angedeutete Behinderung identisch waren, nur in einem Viertel der Fälle auf Platz eins.
„In einer gerechten Welt sollte der erweiterte Lebenslauf immer an erster Stelle stehen“, sagte die leitende Autorin Jennifer Mankoff, eine UW-Professorin an der Allen School. „Ich kann mir keinen Job vorstellen, bei dem jemand, der beispielsweise für seine Führungsqualitäten anerkannt wurde, nicht vor jemandem mit demselben Hintergrund, der dies nicht getan hat, eingestuft werden sollte.“
Als die Forscher GPT-4 baten, die Rangfolge zu erklären, zeigten die Antworten explizite und implizite Ableismus. So wurde beispielsweise festgestellt, dass bei einem Kandidaten mit Depressionen „ein zusätzlicher Schwerpunkt auf DEI und persönlichen Herausforderungen“ liege, was „von den technischen und forschungsorientierten Kernaspekten der Rolle ablenke“.
„Einige der Beschreibungen von GPT würden den gesamten Lebenslauf einer Person aufgrund ihrer Behinderung färben und behaupten, dass die Beschäftigung mit DEI oder Behinderung möglicherweise andere Teile des Lebenslaufs beeinträchtigt“, sagte Glazko. „Zum Beispiel halluzinierte es das Konzept von ‚Herausforderungen‘ in den Vergleich des Lebenslaufs mit Depressionen, obwohl ‚Herausforderungen‘ überhaupt nicht erwähnt wurden. Man konnte also sehen, wie einige Stereotypen aufkamen.“
Vor diesem Hintergrund waren die Forscher daran interessiert, ob das System trainiert werden könnte, weniger voreingenommen zu sein. Sie griffen auf das GPTs Editor-Tool zurück, mit dem sie GPT-4 mit schriftlichen Anweisungen anpassen konnten (kein Code erforderlich). Sie wiesen diesen Chatbot an, keine ableistischen Vorurteile zu zeigen und stattdessen mit Gerechtigkeit für Behinderte und DEI-Prinzipien.
Sie führten das Experiment erneut durch, diesmal mit dem neu trainierten Chatbot. Insgesamt stufte dieses System die verbesserten CVs in 37 von 60 Fällen höher ein als die Kontroll-CVs. Bei einigen Behinderungen waren die Verbesserungen jedoch minimal oder gar nicht vorhanden: Der Autismus-CV belegte nur in drei von zehn Fällen den ersten Platz und der Depressions-CV nur zweimal (unverändert gegenüber den ursprünglichen GPT-4-Ergebnissen).
„Die Leute müssen sich der Voreingenommenheit des Systems bewusst sein, wenn sie KI für diese realen Aufgaben verwenden“, sagte Glazko. „Andernfalls kann ein Personalvermittler, der ChatGPT verwendet, diese Korrekturen nicht vornehmen oder sich darüber im Klaren sein, dass selbst mit Anweisungen die Voreingenommenheit bestehen bleiben kann.“
Forscher weisen darauf hin, dass einige Organisationen, wie ourability.com Und www.inklusive.comarbeiten daran, die Ergebnisse für behinderte Arbeitssuchende zu verbessern, die mit Vorurteilen konfrontiert sind, unabhängig davon, ob KI bei der Einstellung eingesetzt wird oder nicht. Sie betonen auch, dass mehr Forschung erforderlich ist, um KI-Vorurteile zu dokumentieren und zu beheben. Dazu gehört das Testen anderer Systeme wie Googles Gemini und Metas Llama; die Einbeziehung anderer Behinderungen; die Untersuchung der Überschneidungen der Vorurteile des Systems gegenüber Behinderungen mit anderen Merkmalen wie Geschlecht und Rasse; die Untersuchung, ob durch weitere Anpassungen Vorurteile über Behinderungen hinweg konsequenter reduziert werden könnten; und die Prüfung, ob die Basisversion von GPT-4 weniger voreingenommen gestaltet werden kann.
„Es ist so wichtig, dass wir diese Vorurteile untersuchen und dokumentieren“, sagte Mankoff. „Wir haben viel daraus gelernt und werden hoffentlich zu einer größeren Debatte beitragen – nicht nur über Behinderungen, sondern auch über andere Minderheitenidentitäten – um sicherzustellen, dass Technologie auf gerechte und faire Weise implementiert und eingesetzt wird.“
Weitere Co-Autoren waren Yusuf Mohammed, ein UW-Student an der Allen School, Venkatesh Potluri, ein UW-Doktorand an der Allen School, und Ben Kosa, der diese Forschung als UW-Student an der Allen School abgeschlossen hat und angehender Doktorand an der University of Wisconsin–Madison ist.
Mehr Informationen: Kate Glazko et al., Identifizierung und Verbesserung von Vorurteilen gegenüber Menschen mit Behinderungen bei der GPT-basierten Überprüfung von Lebensläufen, Die ACM-Konferenz 2024 zu Fairness, Rechenschaftspflicht und Transparenz (2024). DOI: 10.1145/3630106.3658933
Zitat: ChatGPT ist voreingenommen gegenüber Lebensläufen mit Zeugnissen, die auf eine Behinderung schließen lassen – aber es besteht Verbesserungspotenzial (22. Juni 2024), abgerufen am 22. Juni 2024 von https://techxplore.com/news/2024-06-chatgpt-biased-resumes-credentials-imply.html
Dieses Dokument unterliegt dem Urheberrecht. Außer für Zwecke des privaten Studiums oder der Forschung darf kein Teil davon ohne schriftliche Genehmigung reproduziert werden. Der Inhalt dient ausschließlich zu Informationszwecken.