Seit Chatbots mit künstlicher Intelligenz der Öffentlichkeit allgemein zugänglich sind, haben sie Menschen, die sie erlebt haben, in Erstaunen versetzt. Sie haben auch Befürchtungen geweckt, dass sie die Menschheit unaufhaltsam verbessern und bedrohen. Neue veröffentlichte Forschungsergebnisse offenbaren jedoch eine grundlegende Herausforderung für die Entwicklung künstlicher Intelligenz: chatgpt ist bei der Durchführung bestimmter grundlegender mathematischer Operationen weniger effizient geworden.

Forscher der Stanford University und der University of California Berkeley führten eine Studie durch, um die Gründe für die Veränderung und Entwicklung von ChatGPT herauszufinden. Hier ist eine kurze Zusammenfassung ihrer Forschung:

GPT-3.5 und GPT-4 sind die beiden am häufigsten verwendeten LLM-Dienste (Large Language Model). Es ist jedoch unklar, wann und wie diese Modelle im Laufe der Zeit aktualisiert werden. Hier bewerten wir die Versionen von GPT-3.5 und GPT-4 vom März 2023 und Juni 2023 anhand verschiedener Aufgaben: 1) mathematische Probleme, 2) sensible/gefährliche Fragen, 3) Meinungsumfragen, 4) mehrere Wissensfragen, 5) Codegenerierung , 6) US-amerikanische Approbationstests und 7) visuelles Denken. Wir haben festgestellt, dass die Leistung und das Verhalten von GPT-3.5 und GPT-4 im Laufe der Zeit erheblich variieren können. Beispielsweise war der GPT-4 (März 2023) für die Identifizierung von Primzahlen im Vergleich zu zusammengesetzten Zahlen angemessen (84 % Genauigkeit), aber der GPT-4 (Juni 2023) war für dieselben Fragen schlecht (51 % Genauigkeit). . Dies lässt sich teilweise durch eine verminderte Fähigkeit von GPT-4 erklären, der Gedankenkette zu folgen. Interessanterweise schnitt GPT-3.5 bei dieser Aufgabe im Juni deutlich besser ab als im März. Im Juni war GPT-4 weniger geneigt, sensible Fragen und Meinungsumfragen zu beantworten als im März. GPT-4 schnitt im Juni bei Multi-Hop-Fragen besser ab als im März, während die Leistung von GPT-3.5 bei dieser Aufgabe zurückging. Sowohl GPT-4 als auch GPT-3.5 hatten im Juni mehr Formatierungsfehler bei der Codegenerierung als im März. Insgesamt zeigen unsere Ergebnisse, dass das Verhalten der „Mme„Der LLM-Service kann sich in relativ kurzer Zeit erheblich ändern, was die Notwendigkeit einer kontinuierlichen Überwachung von LLMs unterstreicht.

Siehe auch  Sollte ChatGPT am Arbeitsplatz verboten werden?

Um es klarzustellen: Der Chatbot ist nicht allgemein schlechter geworden. Auch in einigen Funktionen hat er sich verbessert. In einigen Tests verbesserte sich GPT-3.5, obwohl es insgesamt weniger genau war, während GPT-4 schlechter wurde. Das Phänomen der unvorhersehbaren Drift sei Forschern bekannt, die sich mit maschinellem Lernen und künstlicher Intelligenz befassen, sagte James Zou. “Wir vermuteten, dass es hier passieren könnte, waren aber sehr überrascht, wie schnell die Drift vonstatten geht.

YouTube Video

Stanford-Berkeley-Forscher stellten ChatGPT nicht nur mathematische Fragen. Sie stellten auch Meinungsfragen, um zu sehen, ob der Chatbot sie beantworten würde, und stützten sich dabei auf eine Datenbank mit rund 1.500 Fragen.

Im März beantwortete Version 4 des Chatbots 98 % der Fragen. Im Juni beantwortete er nur 23 % der Fragen und verschob seine Antwort oft mit der Begründung, die Frage sei subjektiv und er habe als KI keine Meinung dazu. Das sagt etwas darüber aus, was mit KI-Systemen los ist. Seit der Einführung von Chatbots ist eine Art Heimindustrie entstanden, die sich dem sogenannten Prompt Engineering widmet.

Manchmal versuchen diejenigen, die mit verschiedenen Befehlen experimentieren, einfach das Beste aus den Modellen herauszuholen, indem sie herausfinden, wie sie Fragen am besten stellen können, um die gewünschten Ergebnisse zu erzielen. Aber manchmal versuchen sie, Bots dazu zu bringen, etwas Beleidigendes oder Unverschämtes zu sagen. (Eine beliebte und äußerst effektive Technik besteht darin, die KI die Rolle eines amoralischen Gesprächs mit Niccolo Machiavelli spielen zu lassen.)

Natürlich sind einige dieser Techniken völlig harmlos. Letztes Jahr veröffentlichten Jason Wei und Denny Zhou, Wissenschaftler bei google Research, einen Artikel, der zeigt, dass KI-Modelle bei komplexen Denkaufgaben deutlich besser abschneiden, wenn sie aufgefordert werden, das Problem Schritt für Schritt anzugehen. Im März wurde diese Technik, bekannt als „Gedankenkette“, hat gut funktioniert. Aber im Juni war es viel weniger effektiv geworden.

A

Könnte die Erosion der Fähigkeit, mathematische Probleme zu lösen, eine unbeabsichtigte Folge des Versuchs sein, Menschen daran zu hindern, die KI dazu zu bringen, ihr übertriebene Antworten zu geben? Könnte dies ein Versuch sein, gegen die Eingabeaufforderungstechnik vorzugehen und ein unbeabsichtigter Fehler bei der Verwendung einer Eingabeaufforderung, der die Mathematikleistung verbesserte? Könnte dies eine Folge des Wunsches sein, die KI weniger ausführlich zu gestalten? Die Modelle sind so komplex, dass selbst die Teams, die sie entwickeln, sich nicht sicher sein können.

Siehe auch  Wie ich mit Hilfe von ChatGPT| meine Routine einstelle Nutzen Sie die Kraft von ChatGPT, um meine perfekte Routine zu erstellen. | von Sawera Rasheed | Juli 2023

James Zou sagte, es gehe nicht darum, die Technologie aufzugeben. Es geht vielmehr darum, die KI viel genauer zu überwachen. Das Team aus Stanford und Berkeley wird weiterhin systematisch KI-Modelle (ChatGPT und andere) anhand Tausender Fragen testen, um ihre Leistung im Zeitverlauf empirisch zu analysieren.

Wir sind es gewohnt zu denken, dass Wissen darin besteht, ein Problem zu meistern und es dann weiterzuentwickeln. Aufgrund ihrer unglaublichen Komplexität funktioniert die KI möglicherweise nicht so. Stattdessen tritt sie vor, macht einen Schritt nach vorne und taumelt in eine unerwartete Richtung. Im Laufe der Zeit wird die KI wahrscheinlich weitere Fortschritte machen, aber es ist alles andere als eine gerade Linie.

YouTube Video

Quelle : Wie verändert sich das Verhalten von ChatGPTs im Laufe der Zeit?

Und du ?

Fleche Halten Sie diese Studie für glaubwürdig oder relevant? Fleche Was ist Ihre Meinung zu diesem Thema?

Siehe auch:

Fleche Laut einer Studie, die zeigt, dass die Leistung von ChatGPT und GPT-4 abnimmt, ist GPT-4 innerhalb weniger Monate von 98 % richtiger Antworten auf eine einfache mathematische Aufgabe auf 2 % gestiegen

Fleche GPT-4 hat einen Menschen erfolgreich dazu gebracht, ein CAPTCHA zu lösen, nachdem er vorgab, blind zu sein. OpenAI hat diese Version von ChatGPT als besser und genauer angepriesen

Fleche ChatGPT besteht das Google-Coding-Interview für einen Level-3-Ingenieur mit einem Gehalt von 183.000 US-Dollar und sagt, dass es die menschliche Kreativität nicht nachahmen kann

⬅ Bewerten Sie post
Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein