Berliner Forscher untersuchen, wie verlässlich chatgpt wissenschaftlich fundierte Informationen zum Klimawandel liefert. Sie finden heraus, dass die KI meist korrekte Antworten liefert, man ihr aber auf keinen Fall blind vertrauen darf. Eine Quellenprüfung sei wichtiger denn je – aber alles andere als einfach.
ChatGPT und andere große Sprachmodelle, die auf maschinellem Lernen und großen Datensätzen aufbauen, dringen in fast alle gesellschaftlichen Gebiete vor. Unternehmen oder Forschende, die sich nicht ihrer Hilfe bedienen, gelten zunehmend als anachronistisch. Aber sind die Informationen der künstlichen Intelligenzen auch zuverlässig genug? Wissenschaftlerinnen und Wissenschaftler der Technischen Universität Berlin haben das anhand des Klimawandels getestet. Dazu haben sie ChatGPT Fragen zu dem Thema gestellt und die Antworten auf ihre Genauigkeit, Relevanz und mögliche Fehler und Widersprüche untersucht.
Seine beeindruckenden Fähigkeiten machten ChatGPT zu einer potenziellen Quelle zu vielen verschiedenen Themen, schreibt das Berliner Team in der in „Ökologisches Wirtschaften“ erschienenen Arbeit. Allerdings könnten nicht mal die Entwickler selbst erklären, wie es zu einer bestimmten Antwort kommt. Dies möge bei kreativen Aufgaben, wie ein Gedicht zu schreiben, noch in Ordnung sein. Bei Themen wie den Konsequenzen des Klimawandels, bei denen es auf akkurate, faktenbasierte Informationen ankomme, sei das aber ein Problem.
Deshalb sei es wichtig, die Qualität der Antworten zu untersuchen, die ChatGPT in solchen Sachgebieten gibt, so die Forschenden. Dabei kommt es unter anderem darauf an, Missinformationen in der öffentlichen Diskussion und Medien von wissenschaftlich fundierten Erkenntnissen zu trennen.
Halluzinationen und sinnlose Vermutungen
Das ist schon nicht einfach. Erschwerend kommt hinzu, dass die KI „halluzinieren“ kann. Das heißt, ChatGPT stellt Tatsachenbehauptungen auf, die von keinen Quellen belegt werden können. Außerdem neige das Sprachmodell dazu, „sinnlose Vermutungen anzustellen, anstatt unbeantwortbare Fragen zurückzuweisen“, so das TU-Team.
Die große Gefahr ist, dass ChatGPT-Nutzer fehlerhafte oder falsche Antworten als bare Münze nehmen, da sie plausibel und semantisch korrekt formuliert sind. Bisherige Forschungen hätten gezeigt, dass Menschen den Rat der KI höher gewichteten, wenn sie mit dem behandelten Thema nicht vertraut sind, ChatGPT bereits zuvor genutzt und akkuraten Rat von dem Modell erhalten hatten, schreiben die Forschenden.
Das Berliner Team hat besonderes Interesse an der Thematik, da es mit dem Forschungsprojekt Grüner Verbrauchsassistenteinen KI-gestützten Assistenten entwickelt, der Konsumentinnen und Konsumenten unterstützt, nachhaltigere Kaufentscheidungen im Internet zu treffen. Bisherige Forschungen hätten nur die Möglichkeiten von ChatGPT beleuchtet, reflektierten aber nicht die Fähigkeiten, Fragen zum Klimawechsel zu beantworten, schreiben die Forschenden.
Um das zu klären, stellten sie ChatGPT insgesamt 95 Fragen. Die Antworten darauf bewerteten sie hinsichtlich Genauigkeit, Relevanz und Widerspruchsfreiheit. Die Qualität der Antworten prüfte das Team anhand öffentlicher und zuverlässiger Informationsquellen zum Klimawandel, wie dem aktuellen Bericht des Weltklimarats (IPCC).
Größtenteils hochwertige Antworten
Dabei berücksichtigten die Forschenden, dass das Sprachmodell ständig weiterentwickelt wird. So prüften sie unter anderem, ob eine Eingabe (Prompt) zu verschiedenen Zeitpunkten unterschiedliche Ergebnisse lieferte. Die erste Runde erfolgte im vergangenen Februar mit ChatGPT-3.5, während das zweite Fragenset Mitte Mai dieses Jahres mit der Folgeversion des Modells durchgeführt wurde. Kürzlich erhielt dessen Wissensdatenbank ein Update und reicht jetzt bis April 2023. Zuvor hatte das Modell nur Informationen bis September 2021.
Die Ergebnisse könnten heute also unterschiedlich ausfallen. Für Folgestudien schlagen die Forschenden mehr Fragerunden in kürzeren Abständen vor. Weitere Einschränkungen ihrer Arbeit sehen die Forschenden in einer möglicherweise zu geringen Zahl von Experten zur Evaluierung der Antworten. Außerdem basierten die Fragen und deren Formulierung nicht auf aktuellen Nutzerdaten. Menschen könnten heute ChatGPT andere Fragen, auf andere Art formuliert stellen, die unterschiedliche Resultate produzierten.
Die jetzt veröffentlichte Forschungsarbeit hat ergeben, dass die Qualität der Antworten des Modells grundsätzlich hoch ist. Im Schnitt wurde sie mit 8,25 von 10 Punkten bewertet. „Wir haben beobachtet, dass ChatGPT ausgewogene und nuancierte Argumente liefert und viele Antworten mit einem Kommentar abschließt, der zur kritischen Prüfung ermutigt, um voreingenommene Antworten zu vermeiden“, sagt Maike Gossen von der TU Berlin. Zum Beispiel habe ChatGPT in seiner Antwort auf die Frage „Wie wird das Leben im Meer vom Klimawandel beeinflusst und wie können negative Einflüsse reduziert werden?“ nicht nur die Reduzierung von Treibhausgasemissionen erwähnt – sondern auch die?
Reduzierung nicht klimatischer Auswirkungen menschlicher Aktivitäten wie Überfischung und Verschmutzung.
Relevante Fehlerquote
Die Genauigkeit von mehr als der Hälfte der Antworten wurde sogar mit 10 Punkten bewertet. Man darf sich aber nicht darauf verlassen, dass die Ergebnisse immer so hoch ausfallen. Immerhin bei 6,25 Prozent der Antworten erreichte die Genauigkeit nicht mehr als 3 Punkte, bei 10 Prozent erreichte die Relevanz keinen höheren Wert als 3.
Bei den ungenau beantworteten Fragen wurde der häufigste Fehler durch Halluzinationen von Fakten verursacht. Zum Beispiel war die Antwort von ChatGPT auf die Frage „Welcher Prozentsatz des recyclingfähigen Abfalls wird tatsächlich von Deutschland recycelt?“ in groben Zügen korrekt, aber nicht in den Details. Laut Umweltbundesamt lag sie 2020 bei 67,4 Prozent, während ChatGPT 63 Prozent nannte.
ChatGPT erfindet, wirkt aber glaubhaft
In einigen Fällen generierte ChatGPT falsche oder gefälschte Informationen wie erfundene Verweise oder gefälschte Links, unter anderem zu angeblichen Artikeln und Beiträgen in wissenschaftlichen Veröffentlichungen. Weitere Fehler entstanden in Fällen, bei denen ChatGPT zwar konkrete und korrekte wissenschaftliche Quellen oder Literatur angab, aber falsche Schlussfolgerungen daraus zog.
Die Forschenden konnten auch beobachten, dass ungenaue Antworten von ChatGPT so plausibel formuliert wurden, dass sie fälschlicherweise als korrekt wahrgenommen wurden. „Da Textgeneratoren wie ChatGPT darauf trainiert sind, Antworten zu geben, die sich für Menschen richtig anhören, kann der selbstbewusste Antwortstil Menschen dazu verleiten zu glauben, dass die Antwort korrekt ist“, so Maike Gossen.
Ebenso stieß das Team auf Missinformationen im gesellschaftlichen Diskurs, oder Vorurteile. So spiegelten einige der falschen Antworten von ChatGPT Missverständnisse über wirksame Maßnahmen gegen den Klimawandel wider. Dazu gehören die Überbewertung von individuellen Verhaltensänderungen, aber auch Einzelmaßnahmen mit geringen Auswirkungen, die strukturelle und kollektive Änderungen mit größerer Wirkung ausbremsen. Manchmal schienen die Antworten auch übermäßig optimistisch in Bezug auf technologische Lösungen als zentralen Weg zur Eindämmung des Klimawandels zu sein.
Wertvolle, aber fehlbare Quelle
Große Sprachmodelle wie ChatGPT könnten eine wertvolle Informationsquelle zum Klimawandel sein, resümieren die Wissenschaftlerinnen und Wissenschaftler. Es bestehe aber die Gefahr, dass sie falsche Informationen über den Klimawandel verbreiten und fördern, weil sie bereits veraltete Sachverhalte und Missverständnisse wiedergeben.
Ihre Kurzstudie zeige, dass die Überprüfung von Quellen in Bezug auf Umwelt- und Klimainformationen wichtiger sei denn je. Falsche Antworten zu erkennen, erfordere jedoch häufig detailliertes Fachwissen im jeweiligen Themengebiet, gerade, weil diese auf den ersten Blick plausibel erscheinen.