OpenAI hat nie behauptet, dass chatgpt ein perfektes System ist, aber seit seinem Erscheinen ist es schnell in den Rang der besten Chatbots aufgestiegen. Eine aktuelle Studie von Forschern der Universitäten Stanford und California-Berkeley zeigt jedoch, dass das Sprachmodell GPT-4 offenbar einen Leistungsabfall erlebt.
Diese Ergebnisse unterstreichen die Erfahrungsberichte von Benutzern, die sich kürzlich über die Verschlechterung der Wirksamkeit dieses Tools beschwert haben. In den letzten Wochen hat sich die Unzufriedenheit zu diesem Thema vervielfacht. Darüber hinaus gem eine QuelleBerichten zufolge ging die Zahl der Besuche auf der ChatGPT-Website im Juni deutlich zurück, der erste seit ihrem Bestehen. Berichten zufolge ging die Zahl der Einzelbesucher um 5,7 % zurück, während die auf der Website verbrachte Zeit ebenfalls um 8,5 % zurückging.
Verschlechterung der Leistung
Eine Reihe strenger Experimente, die die Wissenschaftler durchführten, zeigte einen spürbaren Rückgang der Leistung von ChatGPT zwischen März und Juni. Beispielsweise gelang es GPT-4 im März, eine Primzahl mit einer Genauigkeit von 97,6 % zu erkennen, während diese Rate im Juni auf 2,4 % sank. Überraschenderweise zeigte sein Vorgänger GPT-3.5 eine Verbesserung von 7,4 % auf 86,8 %.
Die Forscher ließen die KI auch ein einfaches mathematisches Problem lösen, und erneut zeigte GPT-4 einen spürbaren Rückgang, wobei die Genauigkeitsrate von 52 % im März auf 10 % im Juni sank. GPT-3.5 blieb nicht verschont und die Genauigkeit sank von 22 % auf 2 %. Dennoch zeigten beide Modelle eine gewisse Verbesserung des visuellen Denkens, obwohl die Erfolgsraten in diesem Bereich insgesamt moderat blieben.
Auch die Anwender haben ihrerseits diesen Leistungsabfall zu spüren bekommen. Es wurden viele Stimmen dazu laut OpenAI-Entwicklerforum etwas Unmut zum Ausdruck bringen. Unerwartete Rechtschreib- und Grammatikfehler, wiederkehrender Kontextverlust … Die Beschwerden sind zahlreich und werfen berechtigte Fragen zur zukünftigen Zuverlässigkeit von ChatGPT auf.
Nach ihren Beobachtungen schwiegen die Forscher über die möglichen Ursachen dieser Leistungsverschlechterung. Allerdings stellen sie die für diese Modelle angekündigten „Verbesserungen“ in Frage.
«Wir haben GPT-4 nicht dümmer gemacht»…
Angesichts der wachsenden Besorgnis äußerte sich Peter Welinder, VP of Products bei OpenAI, nicht in einer offiziellen Erklärung, sondern per Tweet:Nein, wir haben GPT-4 nicht dümmer gemacht„. Diese kategorische Ablehnung steht im Widerspruch zu den Behauptungen unzufriedener Nutzer. Welinder behauptet, dass jede neue Version von ChatGPT darauf ausgelegt ist, eine bessere Leistung als die vorherige zu erzielen. Es deutet auch darauf hin, dass durch die intensivere Nutzung des Chatbots Mängel deutlicher geworden sind. Es sollte auch beachtet werden, dass sich GPT-4 noch in der Entwicklungsphase befindet, was einige der beobachteten Inkonsistenzen erklären könnte.
Nein, wir haben GPT-4 nicht dümmer gemacht. Ganz im Gegenteil: Wir machen jede neue Version intelligenter als die vorherige.
Aktuelle Hypothese: Wenn Sie es intensiver nutzen, beginnen Sie, Probleme zu bemerken, die Sie vorher nicht gesehen haben.
— Peter Welinder (@npew) 13. Juli 2023
Sie möchten Anzeigen von der Website entfernen und unterstützen uns weiterhin ?
Es ist ganz einfach, abonnieren Sie einfach!
Im Augenblick, 20% Rabatt zum Jahresabonnement!
Die Lage ist angespannt. Einerseits äußern die Nutzer ihre Unzufriedenheit, andererseits engagiert sich OpenAI weiterhin für die Verteidigung der Integrität seiner Produkte. Alle Augen sind nun auf das Unternehmen gerichtet und erwarten eine formellere Reaktion oder im Idealfall eine spürbare Aufwertung seines Flaggschiffs. Mit der baldigen Einführung von Googles Bard und möglicherweise auch Apples Chatbot könnte die Bedrohung durch Konkurrenten innerhalb weniger Monate ernster werden.
Quelle : Lingjiao Chen, Matei Zaharia, James Zou – Wie verändert sich das Verhalten von ChatGPT im Laufe der Zeit?