In jüngster Zeit wurden Bedenken hinsichtlich der abnehmenden Qualität der Antworten von chatgpt geäußert. Um dieses Problem anzugehen, führten Forscher von Stanford und UC Berkeley eine Studie durch, um das Ausmaß dieser Verschlechterung zu quantifizieren. Die Studie bestätigte, dass es tatsächlich zu einem Qualitätsverlust von ChatGPT kam.
Der Forschungsbericht mit dem Titel „Wie verändert sich das Verhalten von ChatGPT im Laufe der Zeit?“ wurde von Matei Zaharia, Lingjiao Chen und James Zou verfasst. Die von Matei Zaharia auf Twitter geteilten Ergebnisse der Studie zeigten, dass die Erfolgsquote von GPT-4 bei der Lösung bestimmter Probleme zwischen März und Juni drastisch von 97,6 % auf 2,4 % gesunken ist.
GPT-4, das kürzlich als das fortschrittlichste Modell von OpenAI veröffentlicht wurde, wurde von den Entwicklern wegen seines Potenzials zur Entwicklung innovativer KI-Produkte mit Spannung erwartet. Allerdings zeigte die Studie eine enttäuschende Leistung, insbesondere bei der Bearbeitung einfacher Anfragen.
Das Forschungsteam entwarf Aufgaben zur Bewertung der Qualität der Antworten von GPT-4 und GPT-3.5, beides große Sprachmodelle (LLMs). Diese Aufgaben umfassten Bereiche wie das Lösen mathematischer Probleme, die Beantwortung sensibler Fragen, die Codegenerierung und das visuelle Denken. Die Daten der Studie zeigten deutlich, dass derselbe LLM-Dienst im Laufe der Zeit unterschiedliche Antworten lieferte, was auf erhebliche Leistungsunterschiede innerhalb kurzer Zeit hinweist.
Es bleibt ungewiss, wie diese LLMs aktualisiert werden und ob sich Verbesserungen in einem Aspekt ihrer Leistung negativ auf andere auswirken. Bemerkenswert ist, dass die neueste Version von GPT-4 im Vergleich zur März-Version in drei Testkategorien schlechter abgeschnitten hat, mit nur einer leichten Verbesserung beim visuellen Denken.
Die unterschiedliche Qualität dieser LLMs ist ein kritisches Problem, da sowohl GPT-4 als auch GPT-3.5 weit verbreitet sind und sich auf einzelne Benutzer und Unternehmen auswirken, die auf von ChatGPT generierte Informationen angewiesen sind. Die Forscher empfehlen eine weitere Bewertung der GPT-Versionen in einer erweiterten Studie und schlagen vor, dass OpenAI regelmäßige Qualitätsprüfungen für seine zahlenden Kunden überwachen und veröffentlichen sollte. Andernfalls kann es für Organisationen erforderlich sein, grundlegende Qualitätsmetriken für diese LLMs zu verfolgen, um potenzielle Auswirkungen auf Handel und Forschung zu verhindern.
Der Bereich der KI- und LLM-Technologie war mit vielen überraschenden Problemen konfrontiert und ähnelt angesichts der Bedenken hinsichtlich des Datenschutzes und anderer Herausforderungen in der Öffentlichkeitsarbeit derzeit der „Wild-West“-Grenze des vernetzten Lebens und Handels.