Der unten verlinkte Artikel wurde kürzlich von der Harvard Data Science Review (HDSR) veröffentlicht.

Titel

Wie verändert sich das Verhalten von chatgpt im Laufe der Zeit?

Autoren

Lingjiao Chen Universität in Stanford

Matei Zahari UC Berkeley

James Zou Universität in Stanford

Quelle

Harvard Data Science Review (2024)

DOI: 10.1162/99608f92.5317da47

Abstrakt

GPT-3.5 und GPT-4 sind die beiden am häufigsten verwendeten LLM-Dienste (Large Language Model). Wann und wie diese Modelle im Laufe der Zeit aktualisiert werden, ist jedoch unklar. Hier bewerten wir die Versionen von GPT-3.5 und GPT-4 vom März 2023 und Juni 2023 anhand verschiedener Aufgaben: 1) mathematische Probleme, 2) sensible/gefährliche Fragen, 3) Meinungsumfragen, 4) wissensintensive Multi-Hop-Fragen , 5) Generieren von Code, 6) US-amerikanische Zulassungstests und 7) visuelles Denken. Wir stellen fest, dass die Leistung und das Verhalten von GPT-3.5 und GPT-4 im Laufe der Zeit stark variieren können. GPT-4 (März 2023) war beispielsweise bei der Identifizierung von Primzahlen und zusammengesetzten Zahlen gut (84 % Genauigkeit), aber GPT-4 (Juni 2023) war bei denselben Fragen schlecht (51 % Genauigkeit). Dies lässt sich teilweise durch einen Rückgang der Fähigkeit von GPT-4 erklären, Gedankenkettenaufforderungen zu folgen. Interessanterweise schnitt GPT-3.5 bei dieser Aufgabe im Juni deutlich besser ab als im März. GPT-4 war im Juni weniger bereit, sensible Fragen und Meinungsumfragen zu beantworten als im März. GPT-4 schnitt im Juni bei Multi-Hop-Fragen besser ab als im März, während die Leistung von GPT-3.5 bei dieser Aufgabe zurückging. Sowohl GPT-4 als auch GPT-3.5 hatten im Juni mehr Formatierungsfehler bei der Codegenerierung als im März. Wir liefern Beweise dafür, dass die Fähigkeit von GPT-4, Benutzeranweisungen zu befolgen, im Laufe der Zeit abgenommen hat, was ein gemeinsamer Faktor für die vielen Verhaltensabweichungen ist. Insgesamt zeigen unsere Ergebnisse, dass sich das Verhalten „desselben“ LLM-Dienstes in relativ kurzer Zeit erheblich ändern kann, was die Notwendigkeit einer kontinuierlichen Überwachung von LLMs unterstreicht.

Abbildung 1. Überblick Über Die Leistungsdrift (A) Und Die Anweisung Nach Der Verschiebung (B) Von Gpt-4 (Linkes Feld) Und Gpt-3.5 (Rechtes Feld) Zwischen März 2023 Und Juni 2023. Eine Höhere Bewertungsmetrik Ist Besser. Bei Acht Verschiedenen Aufgaben (Siehe Unten) Verschlechtert Sich Die Leistung Der Modelle Im Laufe Der Zeit Erheblich, Manchmal Auch Zum Schlechteren. Die Abnahme Der Fähigkeit Von Gpt-4, Anweisungen Im Laufe Der Zeit Zu Befolgen, Entsprach Seiner Verhaltensabweichung Und Erklärte Teilweise Die Entsprechenden Leistungseinbußen. Quelle: 10.1162/99608F92.5317Da47

Direkt zu Greifen Sie auf den Volltext des Artikels zu

Siehe auch  So erstellen Sie mit ChatGPT ein interaktives Dashboard in Excel

Abgelegt unter: Datendateien, Neuigkeiten

Gary Price 300X300

Über Gary Price

Gary Price ([email protected]) ist Bibliothekar, Autor, Berater und häufiger Konferenzredner mit Sitz im Großraum Washington DC. Er erwarb seinen MLIS-Abschluss an der Wayne State University in Detroit. Price hat mehrere Auszeichnungen gewonnen, darunter den SLA Innovations in Technology Award und den Alumnus des Jahres des Wayne St. University Library and Information Science Program. Von 2006 bis 2009 war er Direktor für Online-Informationsdienste bei Ask.com.

5/5 - (256 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein