Die Entwickler nannten dieses Phänomen „Drift“. Der Versuch, einen Teil eines komplexen KI-Modells zu modernisieren, führt zu einer Verschlechterung der Leistung in anderen Bereichen.
Der chatgpt-Chatbot ist bei der Durchführung einiger elementarer mathematischer Operationen schlechter geworden. informiert Das Wall Street Journal zitiert lernen Wissenschaftler der Stanford University und der University of California in Berkeley.
Die Forscher testeten zwei Versionen von ChatGPT – die kostenlose Version 3.5 und die kostenpflichtige Version 4.0. Sie baten den Chatbot, festzustellen, ob die ausgewählte Zahl eine Primzahl ist. Der Test basierte auf einer Stichprobe von 1.000 Zahlen. GPT-4 zeigte eine Verschlechterung bei sechs von acht Zielen, während GPT-3.5 bei sechs Zielen Fortschritte zeigte.
Im März lag der GPT-4, der im Premium-Abonnement verfügbar ist, in 84 % der Fälle richtig, und im Juni war der Prozentsatz der richtigen Antworten auf 51 % gesunken. Wissenschaftler nennen dieses Phänomen „Drift“: Der Versuch, einen Teil eines komplexen KI-Modells zu verbessern, führt zu einer Verschlechterung seiner Leistung in anderen Bereichen. Dieser Faktor erschwert die Verbesserung neuronaler Netze.
Zusätzlich zu mathematischen Aufgaben forderten die Forscher beide Chatbots auf, 1.500 Fragen zu beantworten. Im März beantwortete GPT-4 98 % der Fragen, im Juni waren es nur 23 %. Oft waren die Antworten zu kurz: Die KI gab an, dass die Frage subjektiv sei und keine eigene Meinung habe.
Im März wurde der Chef von OpenAI, Sam Altman genannt das neue GPT-Modell als das „leistungsfähigste“ KI-Modell, das zwar „immer noch fehlerhaft und begrenzt“ ist, aber „bei der ersten Verwendung beeindruckender erscheint“. Altman stellte fest, dass das neue GPT kreativer als frühere Versionen sei und weniger „halluziniere“.