Aktualisiert am 12. Juli 2024: Das Tony Blair Institute for Global Change hat uns kontaktiert und erklärt, wir hätten die Art seiner Forschung zum Nutzen von KI im öffentlichen Dienst zu stark vereinfacht. Ein Sprecher des TBI hat uns gesagt, dass „wir chatgpt nicht einfach nach den Ergebnissen gefragt haben“ und dass sein Ansatz „auf früheren akademischen Arbeiten und empirischen Untersuchungen“ aufbaut.

Es wurde auch darauf hingewiesen, dass Tony Blair selbst sich der Methoden zur Erstellung der Daten voll bewusst war und dass er auf der Future of Britain-Konferenz anmerkte, dass „diese Art von Vorhersagezahlen keine endgültige Präzision aufweisen“. Seine Aussage spiegelt den TBI-Bericht wider, der hervorhebt, dass LLMs „zuverlässige Ergebnisse liefern können oder nicht“, obwohl alles, was versucht, in die Zukunft zu blicken, niemals 100 % genau sein kann, egal ob es von generativer KI oder fehlbaren Menschen erstellt wird.

Hier erfahren Sie genau, wie TBI das GPT-4-Modell hinter ChatGPT verwendet hat, und zwar detaillierter, als wir es zuvor vorgestellt haben, um herauszufinden, ob KI am Arbeitsplatz Zeit sparen würde:

„Wir haben eine Version von ChatGPT trainiert, indem wir ihr eine Rubrik mit Regeln vorgaben, die dabei helfen sollten, Aufgaben zu klassifizieren, die von KI erledigt werden könnten (und die nicht). Wir haben diese Rubrik anhand eines Testdatensatzes von rund 200 Aufgaben verfeinert und die Ergebnisse mit Experteneinschätzungen der aktuellen Fähigkeiten von KI verglichen – einschließlich des Vergleichs unserer Ergebnisse mit denen aus aktuellen akademischen und empirischen Studien zu ihren Auswirkungen auf bestimmte Aufgaben (z. B. Noy und Zhang, 2023) – um sicherzustellen, dass das Modell robust funktioniert und glaubwürdige Ergebnisse liefert, die auf realen Daten basieren.

„Nach dem Training nutzten wir dann das LLM, um die Ergebnisse zu skalieren, indem wir die Rubrik auf die 20.000 Aufgaben im ONET-Datensatz anwendeten, um den Ansatz zu automatisieren. Anschließend führten wir mehrere Robustheitsprüfungen an den Ergebnissen dieses Modells durch, um zu bestätigen, dass die wieder generierten Zeitersparniszahlen mit realen Anwendungen übereinstimmten.“

Das wesentliche Ergebnis ist jedoch dasselbe: Wir haben immer noch den Eindruck, als würde ein Institut eine Forschungsarbeit über die Vorteile von KI erstellen und dabei in großem Umfang KI verwenden, um uns zu sagen, ob KI eine gute Sache sein wird.

Siehe auch  Der neue Assistent von Samsung lässt Sie ChatGPT, Gemini und Siri vergessen

Nun kann KI im öffentlichen Sektor durchaus eine Menge zeitsparender Vorteile bieten, wenn entsprechend trainierte Modelle richtig eingesetzt werden. Angesichts des mangelnden Vertrauens der Öffentlichkeit in die Ergebnisse der derzeit eingesetzten LLMs kann man jedoch meiner Meinung nach verstehen, warum dieser jüngste Bericht mit einer gewissen Skepsis betrachtet wird. Eine Skepsis, die möglicherweise nicht vorhanden gewesen wäre, wenn der Bericht mit traditionelleren Methoden erstellt worden wäre.

Originalgeschichte, 11. Juli 2024: Das Tony Blair Institute for Global Change, eine gemeinnützige Organisation, die vom ehemaligen britischen Premierminister gegründet wurde, hat ein Papier veröffentlicht (PDF) prognostiziert, dass die KI-Automatisierung im öffentlichen Sektor ein Fünftel der Arbeitnehmerzeit einsparen könnte, zusammen mit einer enormen Reduzierung der Personal- und Regierungskosten. Die Ergebnisse des Papiers waren präsentiert von Tony Blair selbst bei der Eröffnung der 2024 Future of Britain-Konferenz.

Nur ein kleines Problem: Die Vorhersage wurde von einer Version von ChatGPT gemacht. Und wie Experten 404 Medien interviewt zu diesem seltsamen Ouroboros eines Berichts angemerkt haben, dass KI vielleicht nicht die zuverlässigste Quelle für Informationen darüber ist, wie zuverlässig, nützlich oder vorteilhaft KI sein könnte.

Die Forscher des Tony Blair Institute sammelten Daten von O*NET basierend auf berufsspezifischen Beschreibungen zu fast 1.000 US-Berufen, um zu beurteilen, welche dieser Aufgaben von KI ausgeführt werden könnten. Gespräche mit menschlichen Experten, um zu definieren, welche Rollen für die KI-Automatisierung geeignet sein könnten, wurden jedoch als zu schwieriges Problem angesehen, also leiteten sie die Daten in ChatGPT weiter, um stattdessen eine Vorhersage zu treffen.

Siehe auch  Entwickeln Sie heimlich die Apple-Version von ChatGPT und geben Sie täglich Millionen von Dollar aus, um KI zu trainieren | TechNews Tech News

Das Problem ist, wie die Forscher selbst bemerkten, dass LLMs „zuverlässige Ergebnisse liefern können, aber nicht müssen“. Die Lösung? Stellen Sie die Frage noch einmal, aber anders.

„Wir verwenden GPT-4 zunächst, um jede der 19.281 Aufgaben in der O*NET-Datenbank in mehreren verschiedenen Aspekten zu kategorisieren, die wir als wichtige Determinanten dafür betrachten, ob die Aufgabe von KI ausgeführt werden kann oder nicht. Diese wurden nach einer ersten Analyse der ungeleiteten Bewertung der Automatisierbarkeit einiger Beispielaufgaben durch GPT-4 ausgewählt, bei der es mit einigen Bewertungen Probleme hatte.“

„Durch diese Kategorisierung können wir eine Eingabeaufforderung an GPT-4 generieren, die eine erste Einschätzung enthält, ob die Aufgabe wahrscheinlich von einer KI ausgeführt werden kann oder nicht.“

Das wäre also KI, die entscheidet, welche Arbeitsplätze durch KI verbessert werden können, und dann zu dem Schluss kommt, dass KI von Vorteil wäre. Gefolgt von einer internationalen Persönlichkeit, die dem Rest der Welt die Vorzüge dieser Schlussfolgerung preist.

Es überrascht nicht, dass diejenigen, die sich mit den Einzelheiten des Berichts befassen, mit der Glaubwürdigkeit der Ergebnisse unzufrieden sind. Emily Bender – Professorin am Labor für Computerlinguistik der University of Washington – drückt es im Interview mit 404 media so aus:

„Das ist absurd – sie könnten genauso gut Magic 8 Ball schütteln und die angezeigten Antworten aufschreiben.“

„Sie schlagen vor, dass die Ergebnisse irgendwie verlässlich werden, wenn man GPT-4 auf zwei verschiedene Arten auffordert. Es spielt keine Rolle, wie man synthetischen Text, der von einer dieser Maschinen erzeugt wurde, mischt und neu mischt – kein noch so großes Neumischen wird daraus eine solide empirische Grundlage machen.“

Siehe auch  Eine einzigartige ChatGPT-basierte App, die mystische Wissenschaften für eine personalisierte Anleitung vereint

Die Ergebnisse waren gemeldet von mehreren Nachrichtenagenturen, ohne die Beteiligung von ChatGPT an den Vorhersagen des Papiers zu erwähnen. Es ist nicht bekannt, ob Big Tony wusste, dass die von ihm präsentierten Informationen auf weniger zuverlässigen Datenmethoden beruhten, oder ob er das Papier tatsächlich selbst im Detail gelesen hat.

Zwar haben die Forscher hier zumindest ihre mangelhafte Methodik dokumentiert, doch man fragt sich schon, wie viele scheinbar genaue Informationen auf Grundlage von KI-Vorhersagen erstellt und dann als überprüfbare Tatsachen präsentiert werden.

Und übrigens auch nicht von KI erstellte Inhalte, die gerade glaubwürdig genug sind, um ohne ernsthafte Untersuchung durchzugehen. Um zu beweisen, dass dieser Artikel kein Beispiel für solche Inhalte ist, hier ein Rechtschreibfehler. Gern geschehen.

5/5 - (462 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein