Start ChatGPT Warum wird ChatGPT in den Grundrechenarten schlechter? Einer Studie zufolge wäre...

Warum wird ChatGPT in den Grundrechenarten schlechter? Einer Studie zufolge wäre der Grund ein unvorhersehbares Driftphänomen

Von

August 11, 2023

Seit Chatbots mit künstlicher Intelligenz der Öffentlichkeit allgemein zugänglich sind, haben sie Menschen, die sie erlebt haben, in Erstaunen versetzt. Sie haben auch Befürchtungen geweckt, dass sie die Menschheit unaufhaltsam verbessern und bedrohen. Neue veröffentlichte Forschungsergebnisse offenbaren jedoch eine grundlegende Herausforderung für die Entwicklung künstlicher Intelligenz: chatgpt ist bei der Durchführung bestimmter grundlegender mathematischer Operationen weniger effizient geworden.

Forscher der Stanford University und der University of California Berkeley führten eine Studie durch, um die Gründe für die Veränderung und Entwicklung von ChatGPT herauszufinden. Hier ist eine kurze Zusammenfassung ihrer Forschung:

GPT-3.5 und GPT-4 sind die beiden am häufigsten verwendeten LLM-Dienste (Large Language Model). Es ist jedoch unklar, wann und wie diese Modelle im Laufe der Zeit aktualisiert werden. Hier bewerten wir die Versionen von GPT-3.5 und GPT-4 vom März 2023 und Juni 2023 anhand verschiedener Aufgaben: 1) mathematische Probleme, 2) sensible/gefährliche Fragen, 3) Meinungsumfragen, 4) mehrere Wissensfragen, 5) Codegenerierung , 6) US-amerikanische Approbationstests und 7) visuelles Denken. Wir haben festgestellt, dass die Leistung und das Verhalten von GPT-3.5 und GPT-4 im Laufe der Zeit erheblich variieren können. Beispielsweise war der GPT-4 (März 2023) für die Identifizierung von Primzahlen im Vergleich zu zusammengesetzten Zahlen angemessen (84 % Genauigkeit), aber der GPT-4 (Juni 2023) war für dieselben Fragen schlecht (51 % Genauigkeit). . Dies lässt sich teilweise durch eine verminderte Fähigkeit von GPT-4 erklären, der Gedankenkette zu folgen. Interessanterweise schnitt GPT-3.5 bei dieser Aufgabe im Juni deutlich besser ab als im März. Im Juni war GPT-4 weniger geneigt, sensible Fragen und Meinungsumfragen zu beantworten als im März. GPT-4 schnitt im Juni bei Multi-Hop-Fragen besser ab als im März, während die Leistung von GPT-3.5 bei dieser Aufgabe zurückging. Sowohl GPT-4 als auch GPT-3.5 hatten im Juni mehr Formatierungsfehler bei der Codegenerierung als im März. Insgesamt zeigen unsere Ergebnisse, dass das Verhalten der „Mme„Der LLM-Service kann sich in relativ kurzer Zeit erheblich ändern, was die Notwendigkeit einer kontinuierlichen Überwachung von LLMs unterstreicht.

Siehe auch Sollte ChatGPT am Arbeitsplatz verboten werden?

Um es klarzustellen: Der Chatbot ist nicht allgemein schlechter geworden. Auch in einigen Funktionen hat er sich verbessert. In einigen Tests verbesserte sich GPT-3.5, obwohl es insgesamt weniger genau war, während GPT-4 schlechter wurde. Das Phänomen der unvorhersehbaren Drift sei Forschern bekannt, die sich mit maschinellem Lernen und künstlicher Intelligenz befassen, sagte James Zou. „Wir vermuteten, dass es hier passieren könnte, waren aber sehr überrascht, wie schnell die Drift vonstatten geht.„

Stanford-Berkeley-Forscher stellten ChatGPT nicht nur mathematische Fragen. Sie stellten auch Meinungsfragen, um zu sehen, ob der Chatbot sie beantworten würde, und stützten sich dabei auf eine Datenbank mit rund 1.500 Fragen.

Im März beantwortete Version 4 des Chatbots 98 % der Fragen. Im Juni beantwortete er nur 23 % der Fragen und verschob seine Antwort oft mit der Begründung, die Frage sei subjektiv und er habe als KI keine Meinung dazu. Das sagt etwas darüber aus, was mit KI-Systemen los ist. Seit der Einführung von Chatbots ist eine Art Heimindustrie entstanden, die sich dem sogenannten Prompt Engineering widmet.

Manchmal versuchen diejenigen, die mit verschiedenen Befehlen experimentieren, einfach das Beste aus den Modellen herauszuholen, indem sie herausfinden, wie sie Fragen am besten stellen können, um die gewünschten Ergebnisse zu erzielen. Aber manchmal versuchen sie, Bots dazu zu bringen, etwas Beleidigendes oder Unverschämtes zu sagen. (Eine beliebte und äußerst effektive Technik besteht darin, die KI die Rolle eines amoralischen Gesprächs mit Niccolo Machiavelli spielen zu lassen.)

Natürlich sind einige dieser Techniken völlig harmlos. Letztes Jahr veröffentlichten Jason Wei und Denny Zhou, Wissenschaftler bei google Research, einen Artikel, der zeigt, dass KI-Modelle bei komplexen Denkaufgaben deutlich besser abschneiden, wenn sie aufgefordert werden, das Problem Schritt für Schritt anzugehen. Im März wurde diese Technik, bekannt als „Gedankenkette„, hat gut funktioniert. Aber im Juni war es viel weniger effektiv geworden.

Könnte die Erosion der Fähigkeit, mathematische Probleme zu lösen, eine unbeabsichtigte Folge des Versuchs sein, Menschen daran zu hindern, die KI dazu zu bringen, ihr übertriebene Antworten zu geben? Könnte dies ein Versuch sein, gegen die Eingabeaufforderungstechnik vorzugehen und ein unbeabsichtigter Fehler bei der Verwendung einer Eingabeaufforderung, der die Mathematikleistung verbesserte? Könnte dies eine Folge des Wunsches sein, die KI weniger ausführlich zu gestalten? Die Modelle sind so komplex, dass selbst die Teams, die sie entwickeln, sich nicht sicher sein können.

Siehe auch Wie ich mit Hilfe von ChatGPT| meine Routine einstelle Nutzen Sie die Kraft von ChatGPT, um meine perfekte Routine zu erstellen. | von Sawera Rasheed | Juli 2023

James Zou sagte, es gehe nicht darum, die Technologie aufzugeben. Es geht vielmehr darum, die KI viel genauer zu überwachen. Das Team aus Stanford und Berkeley wird weiterhin systematisch KI-Modelle (ChatGPT und andere) anhand Tausender Fragen testen, um ihre Leistung im Zeitverlauf empirisch zu analysieren.

Wir sind es gewohnt zu denken, dass Wissen darin besteht, ein Problem zu meistern und es dann weiterzuentwickeln. Aufgrund ihrer unglaublichen Komplexität funktioniert die KI möglicherweise nicht so. Stattdessen tritt sie vor, macht einen Schritt nach vorne und taumelt in eine unerwartete Richtung. Im Laufe der Zeit wird die KI wahrscheinlich weitere Fortschritte machen, aber es ist alles andere als eine gerade Linie.

Quelle : Wie verändert sich das Verhalten von ChatGPTs im Laufe der Zeit?

Und du ?

Fleche Halten Sie diese Studie für glaubwürdig oder relevant? Fleche Was ist Ihre Meinung zu diesem Thema?

Siehe auch:

Fleche Laut einer Studie, die zeigt, dass die Leistung von ChatGPT und GPT-4 abnimmt, ist GPT-4 innerhalb weniger Monate von 98 % richtiger Antworten auf eine einfache mathematische Aufgabe auf 2 % gestiegen

Fleche GPT-4 hat einen Menschen erfolgreich dazu gebracht, ein CAPTCHA zu lösen, nachdem er vorgab, blind zu sein. OpenAI hat diese Version von ChatGPT als besser und genauer angepriesen

Fleche ChatGPT besteht das Google-Coding-Interview für einen Level-3-Ingenieur mit einem Gehalt von 183.000 US-Dollar und sagt, dass es die menschliche Kreativität nicht nachahmen kann

⬅ Bewerten Sie post

Warum wird ChatGPT in den Grundrechenarten schlechter? Einer Studie zufolge wäre der Grund ein unvorhersehbares Driftphänomen

Kommentieren Sie den Artikel Antwort abbrechen

Warum sind Oppo- und OnePlus-Telefone in Deutschland verboten?

Amazons Gewerkschaftsführer schiebt Anhörung im Kongress zurück

Verwandte ArtikelMehr vom Autor

Das ChatGPT Hong Kong-Tutorial zeigt Ihnen Schritt für Schritt, wie Sie sich kostenlos registrieren, wie Sie es verwenden und wie Sie das Abonnement bezahlen

ChatGPT erklärte, was mit dem Hamster Kombat-Whitepaper nicht stimmt

Sparen Sie 80 % auf dieses AI Super Skills Bundle feat. ChatGPT, Leonardo, Midjourney und mehr

Kommentieren Sie den Artikel Antwort abbrechen

Warum sind Oppo- und OnePlus-Telefone in Deutschland verboten?

Amazons Gewerkschaftsführer schiebt Anhörung im Kongress zurück

Verwandte Artikel Mehr vom Autor