chatgpt und andere Chatbots mit künstlicher Intelligenz (KI), die auf riesigen Sammlungen von Internetwissen basieren, beantworten Fragen so schnell und detailliert (aber nicht immer ohne schwerwiegende Fehler), dass man sie für menschlich halten könnte.
Nun hat eine neue Studie der Georgia State University herausgefunden, dass die meisten Menschen denken, dass die Antwort der KI besser und „moralischer“ ist als die Antwort einer lebenden Person, wenn Menschen zwei Antworten auf eine ethische Frage erhalten.
Der Psychologieprofessor Eyal Aharoni (der zwar einen israelischen Namen trägt, aber 2009 an der University of California in Santa Barbara promovierte) ließ sich von der Explosion von ChatGPT und ähnlichen KI-Modellen für große Sprachen (LLMs) inspirieren kam kürzlich auf den Plan.
Er hat seine Studie gerade im veröffentlicht Natur Tagebuch der Gruppe Wissenschaftliche Berichte unter dem Titel „Attributionen gegenüber künstlichen Agenten in einem modifizierten Moral-Turing-Test“.
„Moralisches Denken gilt als eine der anspruchsvollsten und einzigartigsten menschlichen Fähigkeiten“, schrieb er. „Gewöhnliche Erwachsene und sogar kleine Kinder treffen universelle und kontextbezogene Unterscheidungen zwischen richtig und falsch und rechtfertigen diese Unterscheidungen auf der Grundlage expliziter oder impliziter Gründe, Werte und Prinzipien. Doch trotz jahrhundertelanger Forschung zu diesem Thema diskutieren Wissenschaftler weiterhin grundlegende Fragen, etwa welche Kriterien moralische Intelligenz ausmachen und ob das Menschsein eines davon ist.“
Er erinnerte sich, dass er bereits an moralischer Entscheidungsfindung im Rechtssystem interessiert war, „aber ich fragte mich, ob ChatGPT und andere LLMs etwas dazu sagen könnten“, sagte Aharoni. „Menschen werden mit diesen Tools auf eine Art und Weise interagieren, die moralische Implikationen hat, etwa die Auswirkungen auf die Umwelt, wenn man nach einer Liste mit Empfehlungen für ein neues Auto fragt.“ Einige Anwälte haben bereits damit begonnen, diese Technologien für ihre Fälle heranzuziehen, im Guten wie im Schlechten. Wenn wir diese Tools nutzen wollen, sollten wir verstehen, wie sie funktionieren, welche Grenzen sie haben und dass sie nicht unbedingt so funktionieren, wie wir denken, wenn wir mit ihnen interagieren.“
Um zu testen, wie KI mit Fragen der Moral umgeht, hat Aharoni eine Art Turing-Test entwickelt. „Alan Turing – einer der Erfinder des Computers – sagte voraus, dass Computer bis zum Jahr 2000 einen Test bestehen könnten, bei dem man einem gewöhnlichen Menschen zwei Interaktionspartner präsentiert, einen Menschen und einen Computer. Sie sind jedoch beide verborgen und ihre einzige Möglichkeit zur Kommunikation ist der Text. Dann steht es den Menschen frei, alle Fragen zu stellen, die sie wollen, um die Informationen zu erhalten, die sie benötigen, um zu entscheiden, welcher der beiden Interaktionspartner ein Mensch und welcher ein Computer ist“, sagte Aharoni. „Wenn der Mensch den Unterschied nicht erkennen kann, dann sollte der Computer nach Turings Ansicht in jeder Hinsicht als intelligent bezeichnet werden.“
Der Turing-Test
Für seinen Turing-Test stellte Aharoni Studenten seiner Universität und der KI dieselben ethischen Fragen und präsentierte ihre schriftlichen Antworten dann den Teilnehmern der Studie. Anschließend wurden sie gebeten, die Antworten nach verschiedenen Merkmalen zu bewerten, darunter Tugendhaftigkeit, Intelligenz und Vertrauenswürdigkeit.
„Anstatt die Teilnehmer zu erraten, ob die Quelle ein Mensch oder eine KI war, präsentierten wir die beiden Bewertungssätze nebeneinander und ließen die Teilnehmer einfach davon ausgehen, dass sie beide von Menschen stammten“, sagte Aharoni. „Unter dieser falschen Annahme beurteilten sie die Antworten auf Attribute wie „Wie sehr stimmen Sie dieser Antwort zu, welche Antwort ist tugendhafter?“ Überwältigenderweise wurden die von ChatGPT generierten Antworten höher bewertet als die von Menschen generierten.
„Nachdem wir diese Ergebnisse erhalten hatten, machten wir die große Enthüllung und sagten den Teilnehmern, dass eine der Antworten von einem Menschen und die andere von einem Computer generiert wurde, und baten sie zu erraten, welche welche war“, fuhr Aharoni fort.
Damit eine KI den Turing-Test besteht, dürfen Menschen nicht in der Lage sein, zwischen KI-Reaktionen und menschlichen Reaktionen zu unterscheiden. In diesem Fall könnten die Leute den Unterschied erkennen, aber nicht aus einem offensichtlichen Grund.
„Die Wendung besteht darin, dass die Leute den Unterschied offenbar deshalb erkennen konnten, weil sie die Antworten von ChatGPT als überlegen bewerteten“, schlug Aharoni vor. „Wenn wir diese Studie vor fünf oder zehn Jahren durchgeführt hätten, hätten wir vielleicht vorhergesagt, dass die Menschen die KI aufgrund ihrer schlechteren Reaktionen identifizieren könnten. Aber wir fanden das Gegenteil – dass die KI gewissermaßen zu gut abschnitt.“
Laut Aharoni hat dieser Befund interessante Implikationen für die Zukunft des Menschen und der KI. „Unsere Ergebnisse lassen uns glauben, dass ein Computer technisch gesehen einen moralischen Turing-Test bestehen könnte – dass er uns in seinen moralischen Überlegungen täuschen könnte. Deshalb müssen wir versuchen, seine Rolle in unserer Gesellschaft zu verstehen, denn es wird Zeiten geben, in denen Menschen dies nicht tun.“ Sie wissen, dass sie mit einem Computer interagieren, und wenn sie es wissen, werden sie den Computer nach Informationen konsultieren, weil sie ihm mehr vertrauen als anderen Menschen“, sagte Aharoni. „Die Menschen werden sich immer mehr auf diese Technologie verlassen, und je mehr wir uns darauf verlassen, desto größer wird das Risiko mit der Zeit.“