OpenAI hat nie behauptet, dass chatgpt ein perfektes System ist, aber seit seinem Erscheinen ist es schnell in den Rang der besten Chatbots aufgestiegen. Eine aktuelle Studie von Forschern der Universitäten Stanford und California-Berkeley zeigt jedoch, dass das Sprachmodell GPT-4 offenbar einen Leistungsabfall erlebt.

Diese Ergebnisse unterstreichen die Erfahrungsberichte von Benutzern, die sich kürzlich über die Verschlechterung der Wirksamkeit dieses Tools beschwert haben. In den letzten Wochen hat sich die Unzufriedenheit zu diesem Thema vervielfacht. Darüber hinaus gem eine QuelleBerichten zufolge ging die Zahl der Besuche auf der ChatGPT-Website im Juni deutlich zurück, der erste seit ihrem Bestehen. Berichten zufolge ging die Zahl der Einzelbesucher um 5,7 % zurück, während die auf der Website verbrachte Zeit ebenfalls um 8,5 % zurückging.

Verschlechterung der Leistung

Eine Reihe strenger Experimente, die die Wissenschaftler durchführten, zeigte einen spürbaren Rückgang der Leistung von ChatGPT zwischen März und Juni. Beispielsweise gelang es GPT-4 im März, eine Primzahl mit einer Genauigkeit von 97,6 % zu erkennen, während diese Rate im Juni auf 2,4 % sank. Überraschenderweise zeigte sein Vorgänger GPT-3.5 eine Verbesserung von 7,4 % auf 86,8 %.

:: DAS T-SHIRT, DAS DIE WISSENSCHAFT UNTERSTÜTZT! ::

Die Forscher ließen die KI auch ein einfaches mathematisches Problem lösen, und erneut zeigte GPT-4 einen spürbaren Rückgang, wobei die Genauigkeitsrate von 52 % im März auf 10 % im Juni sank. GPT-3.5 blieb nicht verschont und die Genauigkeit sank von 22 % auf 2 %. Dennoch zeigten beide Modelle eine gewisse Verbesserung des visuellen Denkens, obwohl die Erfolgsraten in diesem Bereich insgesamt moderat blieben.

Siehe auch  Ein Jahr später: Hat ChatGPT das Spiel wirklich verändert?

Auch die Anwender haben ihrerseits diesen Leistungsabfall zu spüren bekommen. Es wurden viele Stimmen dazu laut OpenAI-Entwicklerforum etwas Unmut zum Ausdruck bringen. Unerwartete Rechtschreib- und Grammatikfehler, wiederkehrender Kontextverlust … Die Beschwerden sind zahlreich und werfen berechtigte Fragen zur zukünftigen Zuverlässigkeit von ChatGPT auf.

Nach ihren Beobachtungen schwiegen die Forscher über die möglichen Ursachen dieser Leistungsverschlechterung. Allerdings stellen sie die für diese Modelle angekündigten „Verbesserungen“ in Frage.

GPT 4 GPT 3 5
GPT 4 GPT 3 5

Ergebnisse der Versuchsreihe der Forscher. © Lingjiao Chen, Matei Zaharia, James Zou

«Wir haben GPT-4 nicht dümmer gemacht»…

Angesichts der wachsenden Besorgnis äußerte sich Peter Welinder, VP of Products bei OpenAI, nicht in einer offiziellen Erklärung, sondern per Tweet:Nein, wir haben GPT-4 nicht dümmer gemacht„. Diese kategorische Ablehnung steht im Widerspruch zu den Behauptungen unzufriedener Nutzer. Welinder behauptet, dass jede neue Version von ChatGPT darauf ausgelegt ist, eine bessere Leistung als die vorherige zu erzielen. Es deutet auch darauf hin, dass durch die intensivere Nutzung des Chatbots Mängel deutlicher geworden sind. Es sollte auch beachtet werden, dass sich GPT-4 noch in der Entwicklungsphase befindet, was einige der beobachteten Inkonsistenzen erklären könnte.

Die Lage ist angespannt. Einerseits äußern die Nutzer ihre Unzufriedenheit, andererseits engagiert sich OpenAI weiterhin für die Verteidigung der Integrität seiner Produkte. Alle Augen sind nun auf das Unternehmen gerichtet und erwarten eine formellere Reaktion oder im Idealfall eine spürbare Aufwertung seines Flaggschiffs. Mit der baldigen Einführung von Googles Bard und möglicherweise auch Apples Chatbot könnte die Bedrohung durch Konkurrenten innerhalb weniger Monate ernster werden.

Quelle : Lingjiao Chen, Matei Zaharia, James Zou – Wie verändert sich das Verhalten von ChatGPT im Laufe der Zeit?

Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein