marian/Getty Images

Generative künstliche Intelligenz (KI) ist bekanntermaßen anfällig für sachliche Fehler. Was machen Sie also, wenn Sie chatgpt gebeten haben, 150 vermutete Fakten zu generieren, und Sie nicht ein ganzes Wochenende damit verbringen möchten, jeden einzelnen Sachverhalt handschriftlich zu bestätigen?

Auch: KI im Jahr 2023: Ein Jahr der Durchbrüche, das kein menschliches Ding unverändert ließ

Nun, in meinem Fall habe ich mich an andere KIs gewandt. In diesem Artikel erkläre ich das Projekt, überlege, wie sich die einzelnen KIs in einem Faktencheck-Showdown geschlagen haben, und gebe einige abschließende Gedanken und Vorsichtsmaßnahmen, wenn auch Sie sich in dieses Labyrinth aus verwinkelten, kleinen Passagen wagen möchten, die alle gleich sind.

Das Projekt

Letzte Woche haben wir ein sehr unterhaltsames Projekt veröffentlicht, bei dem wir DALL-E 3, das in ChatGPT läuft, 50 malerische Bilder generieren ließen, die seiner Meinung nach jeden US-Bundesstaat repräsentierten. Ich hatte auch eine ChatGPT-Liste mit den „drei interessantesten Fakten, die Sie über den Staat wissen“. Die Ergebnisse waren, wie mein Herausgeber es im Titel des Artikels ausdrückte, „herrlich seltsam“.

ChatGPT hat die Golden Gate Bridge irgendwo in Kanada platziert. Das Tool brachte Lady Liberty sowohl in den Mittleren Westen der USA als auch irgendwo auf die Insel Manhattan. Und es entstanden zwei Empire State Buildings. Kurz gesagt, ChatGPT hat es geschafft Abstrakter Expressionismus Funk, aber die Ergebnisse waren ziemlich cool.

Außerdem: Ich habe DALL-E 3 gebeten, ein Porträt jedes US-Bundesstaates zu erstellen, und die Ergebnisse waren herrlich seltsam

Was die einzelnen Fakten angeht, waren sie größtenteils zutreffend. Ich kenne mich mit der Geographie und Geschichte der USA ziemlich gut aus und fand, dass nur wenige der von ChatGPT generierten Fakten völlig falsch auffielen. Aber ich habe keine unabhängige Faktenprüfung durchgeführt. Ich habe mir gerade die Ergebnisse durchgelesen und festgestellt, dass sie gut genug sind.

Aber was ist, wenn wir wirklich die Genauigkeit dieser 150 Fakten wissen wollen? Eine solche Frage scheint ein ideales Projekt für eine KI zu sein.

Methodik

Hier ist also die Sache. Wenn GPT-4, das von ChatGPT Plus verwendete OpenAI Large Language Model (LLM), die Faktenaussagen generierte, war ich nicht ganz davon überzeugt, dass es sie überprüfen sollte. Das ist so, als würde man Gymnasiasten bitten, eine Geschichtsarbeit zu schreiben, ohne Referenzen zu verwenden, und ihre Arbeit dann selbst zu korrigieren. Sie beginnen bereits mit verdächtigen Informationen – und dann lassen Sie sie sich selbst korrigieren? Nein, das klingt für mich nicht richtig.

Auch: Zwei Durchbrüche machten 2023 zum innovativsten Technologiejahr seit über einem Jahrzehnt

Aber was wäre, wenn wir diese Fakten an andere LLMs innerhalb anderer KIs weitergeben würden? Sowohl Bard von google als auch Claude von Anthropic haben ihre eigenen LLMs. Bing verwendet GPT-4, aber ich dachte, ich würde seine Antworten testen, nur um der Vollständigkeit halber zu sein.

Wie Sie sehen werden, habe ich das beste Feedback von Bard erhalten, also habe ich seine Antworten in einer zyklischen Perversion der natürlichen Ordnung des Universums in ChatGPT eingespeist. Es war ein cooles Projekt.

Anthropischer Claude

Claude verwendet das Claude 2 LLM, das auch in der KI-Implementierung von Notion verwendet wird. Claude erlaubte mir, ein PDF mit allen Fakten (ohne Bilder) einzuspeisen. Folgendes habe ich zurückbekommen:

Anthropisch-Claude

Screenshot von David Gewirtz/ZDNET

Insgesamt fand Claude die Faktenliste größtenteils zutreffend, enthielt jedoch einige Klarstellungen zu drei Punkten. Ich habe die Länge der ChatGPT-Fakten begrenzt, und diese Beschränkung verhinderte Nuancen in den Faktenbeschreibungen. Claudes Faktencheck stellte einige dieser fehlenden Nuancen in Frage.

Insgesamt war es eine ermutigende Reaktion.

Copilot … oder kein Pilot?

Dann kommen wir zu Microsofts Copilot, der umbenannten Bing Chat AI. Copilot erlaubt das Hochladen von PDFs nicht, daher habe ich versucht, den Text aller 50 Bundesstaatsfakten einzufügen. Dieser Ansatz schlug sofort fehl, da Copilot nur Eingabeaufforderungen mit bis zu 2.000 Zeichen akzeptiert:

Ms-Copilot-Limits

Screenshot von David Gewirtz/ZDNET

Ich habe Copilot Folgendes gefragt:

Der folgende Text enthält Staatsnamen, gefolgt von drei Fakten für jeden Staat. Bitte prüfen Sie die Fakten und identifizieren Sie alle Fakten, die für diesen Staat falsch sind

Folgendes habe ich zurückbekommen:

Copilot3

Screenshot von David Gewirtz/ZDNET

Es wiederholte im Wesentlichen die Tatsachendaten, die ich überprüfen wollte. Also habe ich versucht, es mit einer energischeren Aufforderung zu leiten:

Copilot4

Screenshot von David Gewirtz/ZDNET

Wieder einmal gab es mir die Daten zurück, um deren Überprüfung ich gebeten hatte. Ich fand diese Ausgabe sehr seltsam, da Copilot dasselbe LLM wie ChatGPT verwendet. Offensichtlich hat Microsoft es anders optimiert als ChatGPT.

Ich gab auf und wechselte zu Bard.

Barde

Google hat gerade sein neues Gemini LLM angekündigt. Da ich noch keinen Zugriff auf Gemini habe, habe ich diese Tests ausgeführt Googles PaLM 2-Modell.

Außerdem: Was sind Zwillinge? Alles, was Sie über das neue KI-Modell von Google wissen sollten

Im Vergleich zu Claude und Copilot hat Bard es umgehauen, oder, etwas Shakespeare-mäßiger ausgedrückt, es „überwindet die enge Welt wie ein Koloss“.

Schauen Sie sich die Ergebnisse unten an:

Barde

Screenshot von David Gewirtz/ZDNET

Es ist wichtig zu beachten, dass viele staatliche Fakten nicht einmal von den Staaten vereinbart werden oder es Nuancen gibt. Wie ich Ihnen im nächsten Abschnitt zeigen werde, habe ich diese Liste an ChatGPT weitergeleitet und dabei zwei Diskrepanzen in den Antworten von Alaska und Ohio festgestellt.

Aber es gibt hier noch andere Fehler. In gewisser Weise hat Bard den Auftrag überkompensiert. Bard hat zum Beispiel richtig angegeben, dass neben Maine auch andere Bundesstaaten Hummer produzieren. Aber Maine setzt bei der Hummerproduktion aufs Ganze. Ich war noch nie in einem anderen Staat, in dem Miniatur-Hummerfallen zu den beliebtesten Touristenfallen-Schmuckstücken gehören.

Außerdem: Ich habe ein Wochenende mit den kostenlosen KI-Kursen von Amazon verbracht und kann Ihnen nur wärmstens empfehlen, dies auch zu tun

Oder wählen wir Nevada und Area 51. ChatGPT sagte: „Streng geheime Militärbasis, Gerüchte über UFO-Sichtungen.“ Bard versuchte es zu korrigieren und sagte: „Es gibt nicht nur Gerüchte, dass es in Area 51 UFO-Sichtungen gibt. Es handelt sich um eine echte streng geheime Militäranlage, deren Zweck unbekannt ist.“ Sie sagen so ziemlich das Gleiche. Bard hat die Nuance, die sich aus einer engen Wortbeschränkung ergibt, nur knapp übersehen.

Ein weiterer Ort, den Bard auf ChatGPT auswählte, ohne den Kontext zu verstehen, war Minnesota. Ja, Wisconsin hat auch viele Seen. Aber Bard behauptete nicht, dass Minnesota die meisten Seen habe. Minnesota wurde lediglich als „Land der 10.000 Seen“ beschrieben, was einer der häufigsten Slogans Minnesotas ist.

Auch Bard hat sich auf Kansas eingelassen. ChatGPT sagte, Kansas sei „die Heimat des geografischen Zentrums der angrenzenden USA“. Bard behauptete, es sei South Dakota. Und das wäre wahr, wenn man Alaska und Hawaii mit einbezieht. Aber ChatGPT sagte „angrenzend“, und diese Ehre geht bis zu einem Punkt in der Nähe von Lebanon, Kansas.

Außerdem: Das sind die Jobs, die am ehesten von KI übernommen werden

Ich könnte weitermachen, und das werde ich auch im nächsten Abschnitt tun, aber Sie verstehen, worum es geht. Bards Faktenprüfung scheint beeindruckend, aber sie verfehlt oft das Wesentliche und macht die Dinge genauso falsch wie jede andere KI.

Bevor wir zum begrenzten Faktencheck von Bard durch ChatGPT übergehen, möchte ich darauf hinweisen, dass die meisten Einträge von Bard entweder falsch oder falsch formuliert waren. Und dennoch platziert Google seine KI-Antworten vor den meisten Suchergebnissen. Beunruhigt Sie das? Es macht mir auf jeden Fall Sorgen.

Von einem solchen Wunder, meine Herren und Damen, darf nicht gesprochen werden.

ChatGPT

Gleich zu Beginn konnte ich sehen, dass Bard eine seiner Fakten falsch verstanden hat – Alaska ist viel größer als Texas. Also, dachte ich, mal sehen, ob ChatGPT Bards Faktencheck überprüfen kann. Für einen Moment dachte ich, dass dieses Stück KI-Schwanzverfolgung das könnte Den Mond aus der Erdumlaufbahn werfenaber dann beschloss ich, dass ich die gesamte Struktur unseres Universums riskieren würde, weil ich wusste, dass du wissen wolltest, was passiert ist:

Folgendes habe ich ChatGPT gefüttert:

Chatgpt-Abfrage

Screenshot von David Gewirtz/ZDNET

Und hier ist, was ChatGPT sagte (und der Klarheit halber blieb der Mond im Orbit):

Chatgpt-Gegenprüfung

Screenshot von David Gewirtz/ZDNET

Wie Sie sehen können, widersprach ChatGPT Bards irrtümlicher Behauptung, Texas sei der größte Staat. Es gab auch ein wenig Aufregung um Ohio vs. Kansas als Geburtsstunde der Luftfahrt, was umstrittener ist, als die meisten Schulen lehren.

Außerdem: 7 Möglichkeiten, um sicherzustellen, dass Ihre Daten für generative KI bereit sind

Es ist allgemein anerkannt, dass Wilbur und Orville Wright das erste Flugzeug flogen (eigentlich in Kitty Hawk, North Carolina), obwohl sie ihren Wright Flyer in Dayton, Ohio, bauten. Das heißt, Sir George Cayley (1804), Henri Giffard (1852), Félix du Temple (1874), Clément Ader (1890), Otto Lilienthal (1891), Samuel Langley (1896), Gustave Whitehead (1901) und Richard Pearse (1902) – aus Neuseeland, dem Vereinigten Königreich, Frankreich, Deutschland und anderen Teilen der USA – alle haben einigermaßen berechtigte Ansprüche, die ersten im Flug zu sein.

Aber wir geben den Punkt an ChatGPT weiter, denn es hat nur 10 Wörter, um eine Behauptung aufzustellen, und Ohio war der Ort, an dem die Gebrüder Wright ihren Fahrradladen hatten.

Schlussfolgerungen und Vorbehalte

Lassen Sie uns gleich etwas vorab klären: Wenn Sie eine Arbeit oder ein Dokument einreichen, bei dem die Fakten korrekt sein müssen, führen Sie Ihre eigene Faktenprüfung durch. Andernfalls könnten Ihre Ambitionen in Texas-Größe unter einem Problem in Alaska-Größe begraben werden.

Wie wir in unseren Tests gesehen haben, können die Ergebnisse (wie bei Bard) durchaus beeindruckend aussehen, aber ganz oder teilweise falsch sein. Insgesamt war es interessant, die verschiedenen KIs zu bitten, sich gegenseitig zu überprüfen, und diesen Prozess werde ich wahrscheinlich weiter untersuchen, aber die Ergebnisse waren nur insofern schlüssig, als sie nicht schlüssig waren.

Copilot gab völlig auf und bat einfach darum, wieder sein Nickerchen zu machen. Claude hatte Einwände gegen die Nuancen einiger Antworten. Bard brachte eine ganze Reihe von Antworten auf den Punkt – aber offensichtlich ist es nicht nur menschlich, Fehler zu machen, sondern auch eine Sache der KI.

Auch: Diese 5 großen technischen Fortschritte des Jahres 2023 waren die größten Game-Changer

Abschließend muss ich den echten Barden zitieren und sagen: „Die Verwirrung hat jetzt sein Meisterwerk gemacht!“

Was denken Sie? Welche eklatanten Fehler haben Sie bei Ihrer Lieblings-KI gesehen? Begnügen Sie sich damit, den KIs für Fakten zu vertrauen, oder werden Sie jetzt Ihre eigenen Faktenprüfungsprozesse durchführen? Lass es uns unten in den Kommentaren wissen.


Sie können meine täglichen Projektaktualisierungen in den sozialen Medien verfolgen. Abonnieren Sie unbedingt meinen wöchentlichen Update-Newsletter auf Substackund folgen Sie mir auf Twitter unter @DavidGewirtzauf Facebook unter Facebook.com/DavidGewirtzauf Instagram unter Instagram.com/DavidGewirtzund auf YouTube unter YouTube.com/DavidGewirtzTV.

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein