Forscher der Stanford University und der University of California Berkeley führten eine Studie durch, um die Gründe für die Veränderung und Entwicklung von ChatGPT herauszufinden. Hier ist eine kurze Zusammenfassung ihrer Forschung:
GPT-3.5 und GPT-4 sind die beiden am häufigsten verwendeten LLM-Dienste (Large Language Model). Es ist jedoch unklar, wann und wie diese Modelle im Laufe der Zeit aktualisiert werden. Hier bewerten wir die Versionen von GPT-3.5 und GPT-4 vom März 2023 und Juni 2023 anhand verschiedener Aufgaben: 1) mathematische Probleme, 2) sensible/gefährliche Fragen, 3) Meinungsumfragen, 4) mehrere Wissensfragen, 5) Codegenerierung , 6) US-amerikanische Approbationstests und 7) visuelles Denken. Wir haben festgestellt, dass die Leistung und das Verhalten von GPT-3.5 und GPT-4 im Laufe der Zeit erheblich variieren können. Beispielsweise war der GPT-4 (März 2023) für die Identifizierung von Primzahlen im Vergleich zu zusammengesetzten Zahlen angemessen (84 % Genauigkeit), aber der GPT-4 (Juni 2023) war für dieselben Fragen schlecht (51 % Genauigkeit). . Dies lässt sich teilweise durch eine verminderte Fähigkeit von GPT-4 erklären, der Gedankenkette zu folgen. Interessanterweise schnitt GPT-3.5 bei dieser Aufgabe im Juni deutlich besser ab als im März. Im Juni war GPT-4 weniger geneigt, sensible Fragen und Meinungsumfragen zu beantworten als im März. GPT-4 schnitt im Juni bei Multi-Hop-Fragen besser ab als im März, während die Leistung von GPT-3.5 bei dieser Aufgabe zurückging. Sowohl GPT-4 als auch GPT-3.5 hatten im Juni mehr Formatierungsfehler bei der Codegenerierung als im März. Insgesamt zeigen unsere Ergebnisse, dass das Verhalten der „Mme„Der LLM-Service kann sich in relativ kurzer Zeit erheblich ändern, was die Notwendigkeit einer kontinuierlichen Überwachung von LLMs unterstreicht.
Um es klarzustellen: Der Chatbot ist nicht allgemein schlechter geworden. Auch in einigen Funktionen hat er sich verbessert. In einigen Tests verbesserte sich GPT-3.5, obwohl es insgesamt weniger genau war, während GPT-4 schlechter wurde. Das Phänomen der unvorhersehbaren Drift sei Forschern bekannt, die sich mit maschinellem Lernen und künstlicher Intelligenz befassen, sagte James Zou. „Wir vermuteten, dass es hier passieren könnte, waren aber sehr überrascht, wie schnell die Drift vonstatten geht.„
Stanford-Berkeley-Forscher stellten ChatGPT nicht nur mathematische Fragen. Sie stellten auch Meinungsfragen, um zu sehen, ob der Chatbot sie beantworten würde, und stützten sich dabei auf eine Datenbank mit rund 1.500 Fragen.
Im März beantwortete Version 4 des Chatbots 98 % der Fragen. Im Juni beantwortete er nur 23 % der Fragen und verschob seine Antwort oft mit der Begründung, die Frage sei subjektiv und er habe als KI keine Meinung dazu. Das sagt etwas darüber aus, was mit KI-Systemen los ist. Seit der Einführung von Chatbots ist eine Art Heimindustrie entstanden, die sich dem sogenannten Prompt Engineering widmet.
Manchmal versuchen diejenigen, die mit verschiedenen Befehlen experimentieren, einfach das Beste aus den Modellen herauszuholen, indem sie herausfinden, wie sie Fragen am besten stellen können, um die gewünschten Ergebnisse zu erzielen. Aber manchmal versuchen sie, Bots dazu zu bringen, etwas Beleidigendes oder Unverschämtes zu sagen. (Eine beliebte und äußerst effektive Technik besteht darin, die KI die Rolle eines amoralischen Gesprächs mit Niccolo Machiavelli spielen zu lassen.)
Natürlich sind einige dieser Techniken völlig harmlos. Letztes Jahr veröffentlichten Jason Wei und Denny Zhou, Wissenschaftler bei google Research, einen Artikel, der zeigt, dass KI-Modelle bei komplexen Denkaufgaben deutlich besser abschneiden, wenn sie aufgefordert werden, das Problem Schritt für Schritt anzugehen. Im März wurde diese Technik, bekannt als „Gedankenkette„, hat gut funktioniert. Aber im Juni war es viel weniger effektiv geworden.
Könnte die Erosion der Fähigkeit, mathematische Probleme zu lösen, eine unbeabsichtigte Folge des Versuchs sein, Menschen daran zu hindern, die KI dazu zu bringen, ihr übertriebene Antworten zu geben? Könnte dies ein Versuch sein, gegen die Eingabeaufforderungstechnik vorzugehen und ein unbeabsichtigter Fehler bei der Verwendung einer Eingabeaufforderung, der die Mathematikleistung verbesserte? Könnte dies eine Folge des Wunsches sein, die KI weniger ausführlich zu gestalten? Die Modelle sind so komplex, dass selbst die Teams, die sie entwickeln, sich nicht sicher sein können.
James Zou sagte, es gehe nicht darum, die Technologie aufzugeben. Es geht vielmehr darum, die KI viel genauer zu überwachen. Das Team aus Stanford und Berkeley wird weiterhin systematisch KI-Modelle (ChatGPT und andere) anhand Tausender Fragen testen, um ihre Leistung im Zeitverlauf empirisch zu analysieren.
Wir sind es gewohnt zu denken, dass Wissen darin besteht, ein Problem zu meistern und es dann weiterzuentwickeln. Aufgrund ihrer unglaublichen Komplexität funktioniert die KI möglicherweise nicht so. Stattdessen tritt sie vor, macht einen Schritt nach vorne und taumelt in eine unerwartete Richtung. Im Laufe der Zeit wird die KI wahrscheinlich weitere Fortschritte machen, aber es ist alles andere als eine gerade Linie.
Quelle : Wie verändert sich das Verhalten von ChatGPTs im Laufe der Zeit?
Und du ?
Halten Sie diese Studie für glaubwürdig oder relevant? Was ist Ihre Meinung zu diesem Thema?
Siehe auch:
Laut einer Studie, die zeigt, dass die Leistung von ChatGPT und GPT-4 abnimmt, ist GPT-4 innerhalb weniger Monate von 98 % richtiger Antworten auf eine einfache mathematische Aufgabe auf 2 % gestiegen
GPT-4 hat einen Menschen erfolgreich dazu gebracht, ein CAPTCHA zu lösen, nachdem er vorgab, blind zu sein. OpenAI hat diese Version von ChatGPT als besser und genauer angepriesen
ChatGPT besteht das Google-Coding-Interview für einen Level-3-Ingenieur mit einem Gehalt von 183.000 US-Dollar und sagt, dass es die menschliche Kreativität nicht nachahmen kann