Mit Einbruch der Kälte des Winters lässt sich ein eigenartiges Phänomen beobachten – nicht beim Menschen, sondern bei der künstlichen Intelligenz. Benutzer von ChatGPT-4 berichten von einem deutlichen Rückgang der Reaktionsfähigkeit und Effizienz des Systems und bezeichnen die KI in den kälteren Monaten als „faul“.
Erste Beobachtungen und Antwort von OpenAI
Das Problem trat erstmals Ende November ans Licht, als Benutzer bemerkten, dass ChatGPT-4 vereinfachte Ergebnisse lieferte und bestimmte Aufgaben scheute. OpenAI, verwirrt über diese Änderung, gab das Problem zu und erklärte: „Wir haben das Modell seit dem 11. November nicht mehr aktualisiert, und das war sicherlich nicht beabsichtigt.“ Modellverhalten kann unvorhersehbar sein.“
Wir haben Ihr Feedback dazu gehört, dass GPT4 immer fauler wird! Wir haben das Modell seit dem 11. November nicht mehr aktualisiert, und das ist sicherlich nicht beabsichtigt. Modellverhalten kann unvorhersehbar sein, und wir versuchen, es zu beheben 🫡
– ChatGPT (@ChatGPTapp) 8. Dezember 2023
Die Winterpause-Hypothese
Dies führte zur Entstehung des „Winterpause-Hypothese.„Obwohl es ziemlich verrückt klingt, unterstreicht die Tatsache, dass KI-Forscher darüber nachdenken, die Komplexität und Unvorhersehbarkeit von KI-Sprachmodellen ernsthaft. Die Hypothese legt nahe, dass ChatGPT-4 saisonale Muster nachahmen könnte, die beim Menschen beobachtet werden, beispielsweise eine Verlangsamung im Dezember.
Spekulationen in den sozialen Medien
Die Spekulationen gewannen auf Social-Media-Plattformen an Bedeutung. Ein Benutzer namens Martian schlug vor, dass Large Language Models (LLMs) wie GPT-4 saisonale Depressionen simulieren könnten. Um die Debatte weiter anzuheizen, twitterte Mike Swoopskee und deutete an, dass die KI aus ihren Trainingsdaten gelernt habe, dass Menschen im Dezember langsamer werden.
hmm, ich frage mich, ob LLMs ehrlich gesagt saisonale Depressionen bekommen. Wenn man ihm das Datum gibt und es Menschen nachahmt, ist es dann im Winter weniger nützlich, weil sich etwa 90 % der Menschen auf der Nordhalbkugel aufhalten? könnte auch einfach an der Schwierigkeit liegen, die Leistung komplexer Systeme durch den Menschen zu bewerten.
— Marsianer (@space_colonist) 8. Dezember 2023
Beweise und Experimente
Rob Lynch, ein Entwickler, führte Experimente mit GPT-4 Turbo durch und berichtete über kürzere Ergebnisse, wenn das Modell mit einem Dezember-Datum gefüttert wurde, verglichen mit einem Mai-Datum. Der KI-Forscher Ian Arawjo widersprach diesen Ergebnissen jedoch mit der Begründung, dass es nicht möglich sei, diese Ergebnisse mit statistischer Signifikanz zu reproduzieren. Die Schwierigkeit, Ergebnisse in LLMs aufgrund ihrer inhärenten Zufälligkeit zu reproduzieren, trägt zusätzlich zum Rätsel bei.
Die Systemaufforderung gibt das aktuelle Datum ein, sodass Sie möglicherweise unironisch auf etwas stoßen
– ja (@seedoilmaxxer) 9. Dezember 2023
Die menschenähnlichen Reaktionen der KI
Interessanterweise beleuchtet diese Episode das menschenähnliche Verhalten von KI-Modellen. Fälle, in denen Benutzer KI ermutigt oder „Tipps“ versprochen haben, um die Leistung zu verbessern, deuten auf die komplizierte und etwas menschenähnliche Natur dieser Modelle hin.