GPT-3.5 und GPT-4 sind die beiden am häufigsten verwendeten LLM-Dienste (Large Language Model). Wann und wie diese Modelle im Laufe der Zeit aktualisiert werden, ist jedoch unklar. Hier bewerten wir die Versionen von GPT-3.5 und GPT-4 vom März 2023 und Juni 2023 anhand verschiedener Aufgaben: 1) mathematische Probleme, 2) sensible/gefährliche Fragen, 3) Meinungsumfragen, 4) wissensintensive Multi-Hop-Fragen , 5) Generieren von Code, 6) US-amerikanische Zulassungstests und 7) visuelles Denken. Wir stellen fest, dass die Leistung und das Verhalten von GPT-3.5 und GPT-4 im Laufe der Zeit stark variieren können. GPT-4 (März 2023) war beispielsweise bei der Identifizierung von Primzahlen und zusammengesetzten Zahlen gut (84 % Genauigkeit), aber GPT-4 (Juni 2023) war bei denselben Fragen schlecht (51 % Genauigkeit). Dies lässt sich teilweise durch einen Rückgang der Fähigkeit von GPT-4 erklären, Gedankenkettenaufforderungen zu folgen. Interessanterweise schnitt GPT-3.5 bei dieser Aufgabe im Juni deutlich besser ab als im März. GPT-4 war im Juni weniger bereit, sensible Fragen und Meinungsumfragen zu beantworten als im März. GPT-4 schnitt im Juni bei Multi-Hop-Fragen besser ab als im März, während die Leistung von GPT-3.5 bei dieser Aufgabe zurückging. Sowohl GPT-4 als auch GPT-3.5 hatten im Juni mehr Formatierungsfehler bei der Codegenerierung als im März. Wir liefern Beweise dafür, dass die Fähigkeit von GPT-4, Benutzeranweisungen zu befolgen, im Laufe der Zeit abgenommen hat, was ein gemeinsamer Faktor für die vielen Verhaltensabweichungen ist. Insgesamt zeigen unsere Ergebnisse, dass sich das Verhalten „desselben“ LLM-Dienstes in relativ kurzer Zeit erheblich ändern kann, was die Notwendigkeit einer kontinuierlichen Überwachung von LLMs unterstreicht.
Abbildung 1. Überblick Über Die Leistungsdrift (A) Und Die Anweisung Nach Der Verschiebung (B) Von Gpt-4 (Linkes Feld) Und Gpt-3.5 (Rechtes Feld) Zwischen März 2023 Und Juni 2023. Eine Höhere Bewertungsmetrik Ist Besser. Bei Acht Verschiedenen Aufgaben (Siehe Unten) Verschlechtert Sich Die Leistung Der Modelle Im Laufe Der Zeit Erheblich, Manchmal Auch Zum Schlechteren. Die Abnahme Der Fähigkeit Von Gpt-4, Anweisungen Im Laufe Der Zeit Zu Befolgen, Entsprach Seiner Verhaltensabweichung Und Erklärte Teilweise Die Entsprechenden Leistungseinbußen. Quelle: 10.1162/99608F92.5317Da47
Gary Price ([email protected]) ist Bibliothekar, Autor, Berater und häufiger Konferenzredner mit Sitz im Großraum Washington DC. Er erwarb seinen MLIS-Abschluss an der Wayne State University in Detroit. Price hat mehrere Auszeichnungen gewonnen, darunter den SLA Innovations in Technology Award und den Alumnus des Jahres des Wayne St. University Library and Information Science Program. Von 2006 bis 2009 war er Direktor für Online-Informationsdienste bei Ask.com.