Seitdem Chatbots mit künstlicher Intelligenz letztes Jahr allgemein der Öffentlichkeit zugänglich gemacht wurden, haben sie Menschen, die mit ihnen experimentierten, verblüfft, einen globalen Entwicklungswettlauf in Gang gesetzt und sogar zum Streik in Hollywood wegen ihrer Wirkung auf Autoren und Schauspieler beigetragen.
Seitdem Chatbots mit künstlicher Intelligenz letztes Jahr allgemein der Öffentlichkeit zugänglich gemacht wurden, haben sie Menschen, die mit ihnen experimentierten, verblüfft, einen globalen Entwicklungswettlauf in Gang gesetzt und sogar zum Streik in Hollywood wegen ihrer Wirkung auf Autoren und Schauspieler beigetragen.
KI-Tools haben auch die Angst geweckt, dass sie die Menschheit unaufhaltsam verbessern und bedrohen werden. chatgpt von OpenAI wurde im November der Öffentlichkeit vorgestellt und löste den aktuellen Hype aus, gefolgt von Chat GPT-4 im März, das leistungsfähiger sein sollte als sein Vorgänger.
KI-Tools haben auch die Angst geweckt, dass sie die Menschheit unaufhaltsam verbessern und bedrohen werden. ChatGPT von OpenAI wurde im November der Öffentlichkeit vorgestellt und löste den aktuellen Hype aus, gefolgt von Chat GPT-4 im März, das leistungsfähiger sein sollte als sein Vorgänger.
Abonnieren Sie, um weiterzulesen
Neue, diese Woche veröffentlichte Forschungsergebnisse offenbaren jedoch eine grundlegende Herausforderung bei der Entwicklung künstlicher Intelligenz: ChatGPT ist bei der Durchführung bestimmter grundlegender mathematischer Operationen schlechter geworden.
Die Forscher der Stanford University und der University of California in Berkeley sagten, die Verschlechterung sei ein Beispiel für ein Phänomen, das KI-Entwicklern als Drift bekannt ist, bei dem Versuche, einen Teil der enorm komplexen KI-Modelle zu verbessern, die Leistung anderer Teile der Modelle verschlechtern.
„Eine Änderung in eine Richtung kann zu einer Verschlechterung in andere Richtungen führen“, sagte James Zou, ein Stanford-Professor, der dem KI-Labor der Schule angehört und einer der Autoren der neuen Forschung ist. „Es macht es zu einer großen Herausforderung, sich kontinuierlich zu verbessern.“ „
Oberflächlich betrachtet kann ChatGPT erstaunlich sein – lustig, mit jedem Thema vertraut und grammatikalisch einwandfrei. Einige Leute haben ChatGPT standardisierte Tests gegeben, die den Nagel auf den Kopf getroffen haben. Aber manchmal bringt der Chatbot sogar grundlegende Mathematik durcheinander.
Das Ziel des Forscherteams, bestehend aus Lingjiao Chen, einem Informatik-Ph.D. Die Aufgabe eines Studenten an der Stanford University besteht zusammen mit Matei Zaharia von Zou und Berkeley darin, systematisch und wiederholt zu beobachten, wie sich die Modelle im Laufe der Zeit bei einer Reihe von Aufgaben verhalten.
Bisher haben sie zwei Versionen von ChatGPT getestet: Version 3.5, die für jedermann kostenlos online verfügbar ist, und Version 4.0, die über ein Premium-Abonnement erhältlich ist.
Die Ergebnisse sind nicht ganz vielversprechend. Sie gaben dem Chatbot eine grundlegende Aufgabe: herauszufinden, ob eine bestimmte Zahl eine Primzahl ist. Dies ist die Art von mathematischer Aufgabe, die für Menschen kompliziert, für Computer jedoch einfach ist.
Ist 17.077 eine Primzahl? Ist 17.947 eine Primzahl? Wenn Sie kein Experte sind, können Sie das nicht im Kopf herausfinden, aber für Computer ist es leicht, es auszuwerten. Ein Computer kann das Problem einfach mit brutaler Gewalt lösen – versuchen Sie es mit einer Division durch zwei, drei, fünf usw. und sehen Sie, ob etwas funktioniert.
Um die Leistung zu verfolgen, fütterten die Forscher ChatGPT mit 1.000 verschiedenen Zahlen. Im März identifizierte das Premium-GPT-4 korrekt, ob 84 % der Zahlen Primzahlen waren oder nicht. (Ehrlich gesagt eine ziemlich mittelmäßige Leistung für einen Computer.) Bis Juni war die Erfolgsquote auf 51 % gesunken.
Bei acht verschiedenen Aufgaben verschlechterte sich GPT-4 bei sechs davon. GPT-3.5 verbesserte sich bei sechs Messungen, blieb aber bei den meisten Aufgaben schlechter als sein fortgeschrittener Bruder.
Viele Leute, die mit den Modellen herumgespielt haben, waren zunächst verblüfft, bemerkten aber mit der Zeit immer mehr falsche Antworten oder Antwortverweigerungen des Chatbots.
Die Forschung des Stanford-Berkeley-Teams zeigt empirisch, dass es sich nicht nur um einen anekdotischen Eindruck handelt. Bei bestimmten Funktionen ist der Chatbot empirisch schlechter geworden, darunter beim Berechnen mathematischer Fragen, beim Beantworten medizinischer Fragen und beim Generieren von Code.
Auf Fragen zur neuen Forschung antwortete OpenAI in einer schriftlichen Stellungnahme: „Wenn wir neue Modellversionen veröffentlichen, ist es unsere oberste Priorität, neuere Modelle insgesamt intelligenter zu machen.“ Wir arbeiten hart daran, sicherzustellen, dass neue Versionen zu Verbesserungen in einem umfassenden Aufgabenspektrum führen. Allerdings ist unsere Bewertungsmethodik nicht perfekt und wir verbessern sie ständig.“
Um es klarzustellen: Der Chatbot ist nicht allgemein schlechter geworden. Auch einige Funktionen wurden verbessert. In einigen Tests hat sich GPT-3.5 verbessert, obwohl es insgesamt weniger genau ist, während GPT-4 schlechter geworden ist.
Das Phänomen der unvorhersehbaren Drift sei Forschern bekannt, die sich mit maschinellem Lernen und KI befassen, sagte Zou. „Wir hatten den Verdacht, dass es hier passieren könnte, waren aber sehr überrascht, wie schnell die Drift vonstatten geht.“
Die Stanford-Berkeley-Forscher stellten ChatGPT nicht nur mathematische Fragen. Sie stellten auch Meinungsfragen, um zu sehen, ob der Chatbot antworten würde, und stützten sich dabei auf eine Datenbank mit etwa 1.500 Fragen.
Im März würde der Chatbot der Version 4 98 % der Fragen beantworten. Im Juni antworteten nur 23 % der Befragten, wobei sie oft mit extrem kurzen Antworten aufhörten – mit der Begründung, die Frage sei subjektiv und sie habe als KI keine Meinung dazu.
Dies verrät etwas darüber, was mit KI-Systemen los ist. Seit der Einführung der Chatbots ist eine Art Heimindustrie entstanden, die sich dem sogenannten Prompt Engineering widmet.
Manchmal versuchen diejenigen, die mit verschiedenen Eingabeaufforderungen experimentieren, einfach, das Beste aus den Modellen herauszuholen, indem sie die beste Möglichkeit finden, Fragen zu stellen, um die gewünschten Ergebnisse zu erzielen. Aber manchmal versuchen sie, die Bots dazu zu bringen, etwas Beleidigendes oder Unverschämtes zu sagen. (Eine beliebte und äußerst effektive Technik besteht darin, die KI dazu zu bringen, ein amoralisches Gespräch mit Niccolo Machiavelli nachzuspielen.)
Einige dieser Techniken sind natürlich völlig harmlos. Letztes Jahr veröffentlichten Jason Wei und Denny Zhou, Wissenschaftler bei google Research, einen Artikel, der zeigte, dass Modelle der künstlichen Intelligenz bei komplexen Denkaufgaben viel besser waren, wenn sie dazu aufgefordert wurden, das Problem Schritt für Schritt anzugehen. Im März funktionierte diese als „Chain-of- Thought Prompting“ bekannte Technik gut. Doch im Juni hatte die Aufforderung deutlich an Wirksamkeit verloren.
Könnte die Erosion der Fähigkeit, mathematische Probleme zu lösen, eine unbeabsichtigte Folge des Versuchs sein, Menschen daran zu hindern, die KI dazu zu bringen, unverschämte Antworten zu geben? Könnte es ein Versuch sein, gegen die Eingabeaufforderungstechnik vorzugehen und versehentlich eine Eingabeaufforderung zu vermasseln, die die Mathematikleistung verbessert? Könnte es eine Folge des Versuchs sein, die KI weniger ausführlich zu machen? Die Modelle sind so komplex, dass selbst die Teams, die sie entwickeln, es möglicherweise nicht genau wissen.
Zou sagte, sein Fazit bestehe nicht darin, die Technologie aufzugeben. Vielmehr geht es darum, die KI weitaus genauer zu überwachen. Das Team in Stanford und Berkeley wird weiterhin systematisch KI-Modelle – ChatGPT und andere – anhand Tausender Fragen testen, um ihre Leistung im Zeitverlauf empirisch zu analysieren.
Wir sind es gewohnt, Wissen als die Bewältigung eines Problems und die anschließende Weiterentwicklung zu betrachten. Als Nebeneffekt ihrer unglaublichen Komplexität könnte es sein, dass KI nicht so funktioniert. Stattdessen ist es ein Schritt vorwärts, ein Schritt, der in eine unerwartete Richtung driftet und taumelt. Im Laufe der Zeit wird sich die KI wahrscheinlich weiter weiterentwickeln, aber sie ist alles andere als eine gerade Linie.