× schließen
Kredit: Naturinformatik (2023). DOI: 10.1038/s43588-023-00527-x
Wenn ein Problem auftritt, hat Ihr Gehirn zwei Möglichkeiten, vorzugehen: schnell und intuitiv oder langsam und methodisch. Diese beiden Arten der Verarbeitung sind als System 1 und System 2 bekannt, oder wie der Nobelpreisträger Daniel Kahneman sie einprägsam beschrieb, „schnelles“ und „langsames“ Denken.
Große Sprachmodelle wie ChatGPT bewegen sich standardmäßig schnell. Stellen Sie ihnen eine Frage und sie werden eine Antwort ausspucken – nicht unbedingt die richtige –, die darauf hindeutet, dass sie zu einer schnellen Verarbeitung nach System 1 fähig sind. Doch können diese Modelle bei der Weiterentwicklung langsamer werden und Probleme schrittweise angehen und dabei Ungenauigkeiten vermeiden, die aus schnellen Reaktionen resultieren?
In einem neuen Papier veröffentlicht In Naturinformatikstellt Michal Kosinski, Professor für Organisationsverhalten an der Stanford Graduate School of Business, fest, dass sie es können – und dass sie Menschen in grundlegenden Tests des Denkens und der Entscheidungsfindung übertreffen können.
Kosinski und seine beiden Co-Autoren, der Philosoph Thilo Hagendorff und die Psychologin Sarah Fabi, präsentierten 10 Generationen von OpenAI-LLMs mit einer Reihe von Aufgaben, die darauf ausgelegt sind, schnelle System-1-Reaktionen zu veranlassen. Das Team war zunächst daran interessiert, ob die LLMs kognitive Verzerrungen aufweisen würden, wie sie Menschen zum Stolpern bringen, wenn sie auf automatisches Denken angewiesen sind.
Sie beobachteten, dass frühe Modelle wie GPT-1 und GPT-2 „nicht wirklich verstehen konnten, was vor sich ging“, sagt Kosinski. Ihre Antworten waren „sehr System 1-ähnlich“, da die Tests immer komplexer wurden. „Sehr ähnlich zu den Reaktionen, die Menschen hätten“, sagt er.
Es war nicht überraschend, dass LLMs, die darauf ausgelegt sind, Textfolgen vorherzusagen, nicht selbstständig schlussfolgern konnten. „Diese Modelle haben keine internen Argumentationsschleifen“, sagt Kosinski. „Sie können sich nicht einfach innerlich verlangsamen und sagen: ‚Lassen Sie mich über dieses Problem nachdenken, lassen Sie mich Annahmen analysieren.‘ Das Einzige, was sie tun können, ist, das nächste Wort in einem Satz zu erraten.
Die Forscher fanden jedoch heraus, dass spätere Versionen von GPT und ChatGPT als Reaktion auf Aufforderungen eine strategischere und sorgfältigere Problemlösung durchführen könnten. Kosinski sagt, er sei von der Entstehung dieser System-2-ähnlichen Verarbeitung überrascht gewesen. „Plötzlich ist GPT3 von einer Sekunde auf die andere in der Lage, diese Aufgabe zu lösen, ohne dass eine Umschulung erforderlich ist, ohne dass neue neuronale Verbindungen aufgebaut werden müssen“, sagt er. „Es zeigt, dass diese Modelle wie Menschen sofort lernen können.“
Langsamer, Du bewegst Dich zu schnell
Hier ist eines der Probleme, die die Forscher den GPT-Modellen gaben: Jeden Tag verdoppelt sich die Anzahl der Lilien, die in einem See wachsen. Wenn es 10 Tage dauert, bis der See vollständig bedeckt ist, wie viele Tage dauert es dann, bis die Hälfte des Sees bedeckt ist? (Lesen Sie weiter, um die Antwort zu sehen.)
Diese Art von kognitivem Reflexionstest, erklärt Kosinski, erfordert eher logisches Denken als Intuition. Um die richtige Antwort zu erhalten, müssen Sie langsamer werden, sich vielleicht einen Block Papier oder einen Taschenrechner schnappen und die Aufgabe analysieren. „Es ist darauf ausgelegt, eine Person zum System-1-Denken zu verleiten“, erklärt er. „Jemand könnte denken: „Okay, 10 Tage für den ganzen See.“ Die Hälfte von 10 ist also fünf, „wobei die Tatsache außer Acht gelassen wird, dass sich die von diesen Plänen abgedeckte Fläche jeden Tag verdoppelt, dass das Wachstum exponentiell ist.“ Die richtige Antwort: Es dauert neun Tage, bis die Hälfte des Sees bedeckt ist.
Weniger als 40 % der menschlichen Probanden, denen diese Art von Problemen gestellt wurden, haben sie richtig gelöst. Frühere Versionen der generativen Pre-Trained-Transformer-Modelle (GPT), die ChatGPT vorausgingen, schnitten sogar noch schlechter ab. Doch GPT-3 gelangte durch eine komplexere „Gedankenkette“ zu den richtigen Antworten, als es von den Forschern positive Bestätigung und Rückmeldung erhielt.
„Nur angesichts der Aufgabe löst GPT-3 weniger als 5 % davon richtig“, sagte Kosinski, „und verwendet niemals eine schrittweise Argumentation. Aber wenn man eine bestimmte Richtung hinzufügt wie: ‚Lasst uns die Algebra lösen, um das zu lösen.‘ „Problem“ verwendet es zu 100 % Schritt-für-Schritt-Überlegungen und seine Genauigkeit steigt auf etwa 30 % – eine Steigerung um 500 %.“ Die Häufigkeit der System-1-Antworten sank ebenfalls von etwa 80 % auf etwa 25 %, „was zeigt, dass es nicht so anfällig für intuitive Fehler ist, selbst wenn es falsch liegt.“ Als ChatGPT-4 die Gedankenkettenbetrachtung nutzte, erhielt es bei fast 80 % dieser Tests die richtige Antwort.
Die Forscher fanden außerdem heraus, dass ChatGPT, auch wenn es daran gehindert wurde, System-2-Argumentation durchzuführen, immer noch besser war als Menschen. Kosinski sagt, dies sei ein Beweis dafür, dass die „Intuitionen“ der LLMs möglicherweise besser sind als unsere.
Ein weiterer Gedanke kommt
Kosinski, der die unerwarteten (und manchmal beunruhigenden) Fähigkeiten von LLMs erforscht hat, sagt, diese Ergebnisse seien ein weiterer Beweis dafür, dass ein KI-Modell „mehr als die Summe seiner Teile“ sein könnte. Die neuronalen Netze hinter den Sprachmodellen, die menschlichen Gehirnen ähneln, zeigen weiterhin emergente Eigenschaften, die über ihr Training hinausgehen. „Es ist einfach verrückt zu glauben, dass dieses Ding in der Lage wäre, Gedichte zu schreiben, Gespräche zu führen und sehr komplexe Konzepte und Vernunft zu verstehen“, sagt Kosinski.
Aber ist das wirklich „Denken“? „Wenn Leute sagen: ‚Offensichtlich denken diese Modelle nicht‘, ist das für mich überhaupt nicht offensichtlich“, sagt Kosinski. „Wenn Sie beobachten, dass die Fähigkeit zum logischen Denken in diesen Modellen spontan entstand, warum sollten dann nicht auch andere Fähigkeiten spontan entstehen?“
In ihrem Artikel stellen Kosinski und seine Co-Autoren jedoch fest, dass sie „nicht beabsichtigen, künstliche Intelligenz und menschliche kognitive Prozesse gleichzusetzen. Während die Ergebnisse der KI oft denen ähneln, die von Menschen erzeugt werden, funktionieren sie typischerweise auf grundlegend andere Weise.“
Wenn jedoch ein Mensch die in dieser Studie beobachteten kognitiven Prozesse zeigen würde, würden wir das sicherlich als Verständnis bezeichnen, sagt Kosinski. „Die Frage, die wir uns jetzt zunehmend stellen sollten, lautet: Warum bestehen wir darauf, dass, wenn ein Mensch etwas tut, dies Verständnis impliziert, aber wenn ein Modell etwas tut, sagen wir einfach: ‚Oh, das muss wirklich etwas anderes sein?‘“ fragt Kosinski. „Irgendwann wird es außergewöhnlich, dass man versucht, dies durch etwas anderes als Verständnis zu erklären.“
Mehr Informationen: Thilo Hagendorff et al., Menschenähnliche intuitive Verhaltens- und Argumentationsverzerrungen traten in großen Sprachmodellen auf, verschwanden jedoch in ChatGPT. Naturinformatik (2023). DOI: 10.1038/s43588-023-00527-x