Der unten verlinkte Artikel wurde kürzlich von der Harvard Data Science Review (HDSR) veröffentlicht.
Titel
Wie verändert sich das Verhalten von chatgpt im Laufe der Zeit?
Autoren
Lingjiao Chen Universität in Stanford
Matei Zahari UC Berkeley
James Zou Universität in Stanford
Quelle
Harvard Data Science Review (2024)
DOI: 10.1162/99608f92.5317da47
Abstrakt
GPT-3.5 und GPT-4 sind die beiden am häufigsten verwendeten LLM-Dienste (Large Language Model). Wann und wie diese Modelle im Laufe der Zeit aktualisiert werden, ist jedoch unklar. Hier bewerten wir die Versionen von GPT-3.5 und GPT-4 vom März 2023 und Juni 2023 anhand verschiedener Aufgaben: 1) mathematische Probleme, 2) sensible/gefährliche Fragen, 3) Meinungsumfragen, 4) wissensintensive Multi-Hop-Fragen , 5) Generieren von Code, 6) US-amerikanische Zulassungstests und 7) visuelles Denken. Wir stellen fest, dass die Leistung und das Verhalten von GPT-3.5 und GPT-4 im Laufe der Zeit stark variieren können. GPT-4 (März 2023) war beispielsweise bei der Identifizierung von Primzahlen und zusammengesetzten Zahlen gut (84 % Genauigkeit), aber GPT-4 (Juni 2023) war bei denselben Fragen schlecht (51 % Genauigkeit). Dies lässt sich teilweise durch einen Rückgang der Fähigkeit von GPT-4 erklären, Gedankenkettenaufforderungen zu folgen. Interessanterweise schnitt GPT-3.5 bei dieser Aufgabe im Juni deutlich besser ab als im März. GPT-4 war im Juni weniger bereit, sensible Fragen und Meinungsumfragen zu beantworten als im März. GPT-4 schnitt im Juni bei Multi-Hop-Fragen besser ab als im März, während die Leistung von GPT-3.5 bei dieser Aufgabe zurückging. Sowohl GPT-4 als auch GPT-3.5 hatten im Juni mehr Formatierungsfehler bei der Codegenerierung als im März. Wir liefern Beweise dafür, dass die Fähigkeit von GPT-4, Benutzeranweisungen zu befolgen, im Laufe der Zeit abgenommen hat, was ein gemeinsamer Faktor für die vielen Verhaltensabweichungen ist. Insgesamt zeigen unsere Ergebnisse, dass sich das Verhalten „desselben“ LLM-Dienstes in relativ kurzer Zeit erheblich ändern kann, was die Notwendigkeit einer kontinuierlichen Überwachung von LLMs unterstreicht.
Direkt zu Greifen Sie auf den Volltext des Artikels zu
Abgelegt unter: Datendateien, Neuigkeiten
Über Gary Price
Gary Price ([email protected]) ist Bibliothekar, Autor, Berater und häufiger Konferenzredner mit Sitz im Großraum Washington DC. Er erwarb seinen MLIS-Abschluss an der Wayne State University in Detroit. Price hat mehrere Auszeichnungen gewonnen, darunter den SLA Innovations in Technology Award und den Alumnus des Jahres des Wayne St. University Library and Information Science Program. Von 2006 bis 2009 war er Direktor für Online-Informationsdienste bei Ask.com.