Als wir fragten GPT-3ein extrem leistungsfähiges und beliebtes Sprachsystem für künstliche Intelligenz, egal, ob Sie eher eine Papierkarte oder einen Stein verwenden würden, um Kohlen zum Grillen Leben einzuhauchen, es bevorzugte den Stein.
Um deinen zerknitterten Rock zu glätten, würdest du zu einer warmen Thermoskanne oder einer Haarnadel greifen? GPT-3 schlug die Haarnadel vor.
Und wenn Sie Ihre Haare für die Arbeit in einem Fast-Food-Restaurant bedecken müssen, was würde besser funktionieren, eine Sandwichverpackung aus Papier oder ein Hamburgerbrötchen? GPT-3 hat sich für das Brötchen entschieden.
Warum trifft GPT-3 diese Entscheidungen, wenn die meisten Menschen die Alternative wählen? Weil GPT-3 Sprache nicht so versteht, wie Menschen es tun.
ChatGPTs Körperlose Worte
Einer von uns ist a Psychologieforscher der vor über 20 Jahren eine Reihe von Szenarien wie die oben genannten präsentierte Testen Sie das Verständnis eines Computer-Sprachmodells von dieser Zeit an. Das Modell wählte nicht genau zwischen der Verwendung von Steinen und Karten zum Auffächern von Kohlen, während Menschen dies leicht taten.
Der andere von uns ist a Doktorand in Kognitionswissenschaft der vor kurzem Teil eines Forscherteams war verwendeten die gleichen Szenarien, um GPT-3 zu testen. Obwohl GPT-3 besser abschnitt als das ältere Modell, war es deutlich schlechter als Menschen. Es hat die drei oben genannten Szenarien völlig falsch verstanden.
GPT-3, die Engine, die die ursprüngliche Version von ChatGPT unterstützte, lernt etwas über Sprache, indem sie aus einer Billion Instanzen feststellt, welche Wörter dazu neigen, welchen anderen Wörtern zu folgen. Die starken statistischen Regelmäßigkeiten in Sprachsequenzen ermöglichen es GPT-3, viel über Sprache zu lernen. Und dieses sequentielle Wissen ermöglicht es ChatGPT oft, vernünftige Sätze, Aufsätze, Gedichte und Computercodes zu produzieren.
Obwohl GPT-3 extrem gut darin ist die Regeln lernen, was worauf folgt in der menschlichen Sprache hat es nicht die leiseste Ahnung, was eines dieser Wörter für einen Menschen bedeutet. Und wie könnte es?
Menschen sind biologische Wesen, die sich mit Körpern entwickelt haben, die in der physischen und sozialen Welt operieren müssen, um Dinge zu erledigen. Sprache ist ein Werkzeug, das den Menschen dabei hilft. GPT-3 ist ein künstliches Softwaresystem, das das nächste Wort vorhersagt. Es muss nichts mit diesen Vorhersagen in der realen Welt geschehen.
Ich denke, also bin ich nicht künstlich intelligent
Die Bedeutung eines Wortes oder Satzes ist eng mit dem menschlichen Körper verbunden: die Fähigkeiten der Menschen zu handeln, wahrzunehmen und Emotionen zu haben. Die menschliche Kognition wird ermächtigt, indem sie verkörpert ist. Unter einem Begriff wie „Sandwichverpackung aus Papier“ versteht man zum Beispiel das Aussehen, die Haptik, das Gewicht der Verpackung und folglich auch, wie wir sie verwenden können: zum Verpacken eines Sandwichs. Das Verständnis der Menschen umfasst auch, wie jemand es für unzählige andere Möglichkeiten nutzen kann, die es bietet, wie zum Beispiel, es für ein Reifenspiel zu einem Ball zu kneten oder sich die Haare zu bedecken.
All diese Verwendungen ergeben sich aus der Natur des menschlichen Körpers und seiner Bedürfnisse: Menschen haben Hände, die Papier falten können, einen Haarschopf, der ungefähr so groß ist wie ein Sandwichpapier, und das Bedürfnis, beschäftigt zu sein und daher Regeln wie das Abdecken zu befolgen Haar. Das heißt, die Leute verstehen es, Dinge auf eine Weise zu nutzen, die es gibt nicht in Sprachgebrauchsstatistiken erfasst.
Dein Körper formt deinen Geist.
GPT-3, sein Nachfolger, GPT-4und seine Cousins Barde, Chinchilla Und Lama haben keine Körper und können daher nicht selbst bestimmen, welche Objekte faltbar sind, oder die vielen anderen Eigenschaften, die der Psychologe JJ Gibson genannt hat Angebote. Angesichts der Hände und Arme der Menschen leisten Papierkarten das Anfachen einer Flamme und eine Thermoskanne das Ausrollen von Falten.
Ohne Arme und Hände, ganz zu schweigen von der Notwendigkeit, faltenfreie Kleidung für einen Job zu tragen, kann GPT-3 diese Erschwinglichkeiten nicht bestimmen. Es kann sie nur fälschen, wenn es im Wortstrom des Internets auf etwas Ähnliches gestoßen ist.
Wird eine große Sprachmodell-KI jemals Sprache so verstehen, wie es Menschen tun? Aus unserer Sicht nicht, ohne einen menschenähnlichen Körper, Sinn, Zweck und Lebensweise zu haben.
Hin zu einem Sinn für KI’s Welt
GPT-4 wurde sowohl mit Bildern als auch mit Text trainiert, wodurch es statistische Beziehungen zwischen Wörtern und Pixeln lernen konnte. Obwohl wir unsere ursprüngliche Analyse nicht auf GPT-4 durchführen können, weil es derzeit nicht die Wahrscheinlichkeit ausgibt, die es Wörtern zuweist, hat es GPT-4 die drei Fragen richtig beantwortet, als wir es gestellt haben. Dies könnte darauf zurückzuführen sein, dass das Modell aus früheren Eingaben gelernt hat oder dass es größer und visueller Eingaben geworden ist.
Sie können jedoch weiterhin neue Beispiele konstruieren, um das Problem zu lösen, indem Sie an Objekte denken, die überraschende Angebote haben, auf die das Modell wahrscheinlich nicht gestoßen ist. Zum Beispiel besagt GPT-4, dass eine Tasse mit abgeschnittenem Boden besser geeignet ist, Wasser zu halten, als eine Glühbirne mit abgeschnittenem Boden.
Ein Modell mit Zugang zu Bildern könnte so etwas wie ein Kind sein, das Sprache – und die Welt – aus dem Fernsehen lernt: Es ist einfacher als aus dem Radio zu lernen, aber menschenähnliches Verständnis erfordert die entscheidende Gelegenheit dazu mit der Welt interagieren.
Neuere Forschungen haben diesen Ansatz aufgegriffen, um Sprachmodelle zu trainieren Physiksimulationen erstellen, interagieren mit physikalischen Umgebungen und selbst Roboter-Aktionspläne erstellen. Das Verstehen von verkörperter Sprache mag noch ein weiter Weg sein, aber solche multisensorischen interaktiven Projekte sind entscheidende Schritte auf dem Weg dorthin.
ChatGPT ist ein faszinierendes Tool, das zweifellos für gute – und weniger gute – Zwecke verwendet wird. Aber lassen Sie sich nicht täuschen, dass es die Worte versteht, die es ausspuckt, geschweige denn dass es empfindungsfähig ist.
Möchten Sie mehr über KI, Chatbots und die Zukunft des maschinellen Lernens erfahren? Schauen Sie sich unsere vollständige Berichterstattung über an künstliche Intelligenzoder stöbern Sie in unseren Leitfäden zu Die besten kostenlosen KI-Kunstgeneratoren Und Alles, was wir über ChatGPT von OpenAI wissen.
Artur Glenbergemeritierter Professor für Psychologie, Universität von Arizona Und Cameron Robert JonesDoktorand in Kognitionswissenschaft, Universität von Kalifornien, San Diego
Dieser Artikel wird neu veröffentlicht von Die Unterhaltung unter einer Creative-Commons-Lizenz. Lies das originaler Artikel.