Zu den viel diskutierten Halluzinationen von Large Language Models (LLM), ihrer Instabilität und mangelnden Interpretierbarkeit, können wir nun ihre hinzufügen Verletzlichkeit automatisierten gegnerischen Angriffen ausgesetzt, die sie dazu zwingen, schädliche Inhalte zu produzieren. Aber das sind ihre geringsten Schwächen. Die Tiefe ihres Verständnisses der menschlichen Welt ist eine viel größere Hürde, die LLM überwinden muss, bevor sie zur „Superintelligenz“ werden.

chatgpt creator OpenAI“>Laut ChatGPT-Ersteller OpenAIAllerdings könnte diese „einflussreichste Technologie, die die Menschheit je erfunden hat“, „noch in diesem Jahrzehnt eintreffen“ und „zum Aussterben der Menschheit führen“.

Wir haben bereits vor Jahren gehört, dass menschenähnliche KI vor der Tür steht. Zu der Zeit, als Terry Winograd in den späten 1960er-Jahren die Graduiertenschule begann, waren es die meisten [intelligent and knowledgeable humans] „Ich glaubte, dass es nicht mehr lange dauern würde, bis Maschinen sehen, hören, sprechen, sich bewegen und auf andere Weise menschenähnliche Aufgaben ausführen würden“, schrieb John Markoff in Maschinen der liebenden Gnade.

Für seine Doktorarbeit am MIT entwickelte Winograd SHRDLU, ein Computerprogramm, das in der Lage war, an Gesprächen über eine erfundene Welt teilzunehmen, eine „Mikrowelt“, bestehend aus Spielzeugblöcken und einem „Greifer“, um sie zu bewegen. Es reagierte auf Befehle in Englisch, um die Blöcke mit seinem Greifer zu manipulieren, und es „verstand“ Fragen über den Zustand seiner Welt.

In seiner Geschichte der künstlichen Intelligenz sagt Nils Nilsson, dass die beeindruckende Leistung von SHRDLU einige NLP-Forscher „optimistisch für den zukünftigen Erfolg“ gemacht habe. Aber „Winograd gab diese Forschungsrichtung bald auf und widmete sich stattdessen der Arbeit, die sich der Interaktion von Computern und Menschen widmete.“ Vielleicht weil er aus erster Hand erfahren hatte, wie viel Wissen für ein erfolgreiches Sprachverständnis in etwas so Einfachem wie der Welt der Blöcke erforderlich war, verzweifelte er daran, Computern jemals genug Wissen zu geben, um das gesamte Spektrum menschlicher Sprachkompetenz zu duplizieren.“

Später, im Jahr 2006, Weinrebe gesehen Statistisches Sprachverständnis, neuronale Netze und maschinelles Lernen als neue Entwicklungen, die den KI-Bereich in die Richtung seines bevorzugten Ansatzes zur Mensch-Computer-Interaktion bewegen. „Aufgeklärtes Versuch und Irrtum übertrifft die Planung des makellosen Intellekts“ stehe im Mittelpunkt dieses Ansatzes, schrieb er und erkannte „die Grenzen der Kenntnis und Modellierung der Komplexität der realen menschlichen Welt“ an.

Weitere Erfolge des statistischen Analyseansatzes für KI, insbesondere im Bereich der Bildidentifizierung im Jahr 2012, ließen die meisten intelligenten und sachkundigen Menschen glauben, dass eine menschenähnliche maschinelle Intelligenz oder sogar „Superintelligenz“ wieder vor der Tür steht.

Siehe auch  ChatGPT und andere, Segen oder Bedrohung für Reiseveranstalter?

Die meisten, aber nicht alle. Ein beliebtes Tool, das von denjenigen verwendet wurde, die die Intelligenz der neuen KI in Frage stellten, wurde als Winograd Schema Challenge bekannt. Dies war die Idee von Hector Levesque an der University of Toronto aus dem Jahr 2010, basierend auf einem Beispiel semantischer Mehrdeutigkeit, das in Winograds „Understanding Natural Language“ von 1972 erwähnt wurde. Um die Einschränkungen des „Turing-Tests“ zu überwinden, schlug Levesque einen Multiple-Choice-Test vor, der die korrekte Auflösung eines mehrdeutigen Pronomens in einer Aussage erfordert. Zum Beispiel,

Der Pokal passt nicht in den braunen Koffer, weil er zu groß ist. Was ist zu groß?

A. Die Trophäe

B. Der Koffer

„Die Herausforderung stieß sowohl in der Forschungsgemeinschaft als auch in der populärwissenschaftlichen Presse auf großes positives Interesse. Die Natürlichkeit des Problems machte es für KI-Systeme zu einem fairen Problem. Die Komplexität der damit verbundenen Schlussfolgerungen schien weit über den Bereich der damals aktuellen Technologie hinauszugehen“, schrieben die Autoren von „Die Niederlage der Winograd Schema Challenge” (Januar 2023).

Tatsächlich erreichte das erfolgreichste der sechs teilnehmenden KI-Programme bei der „ersten und letzten Auflage der Winograd Schema Challenge“ im Jahr 2016 eine Punktzahl von 58 % in der Testsammlung, nur geringfügig besser als der Zufall. Während einige auf der ersten O’Reilly AI-Konferenz im selben Jahr über „übermenschliche“ fahrerlose Autos sprachen, die unmittelbar vor der Tür stehen, erwähnten andere, darunter der Deep-Learning-Pionier Yann LeCun, das Winograd-Schema als ungelöste Herausforderung beim Testen Das Wissen der Maschine darüber, wie die Welt funktioniert.

Nur ein Jahr später machte die Verarbeitung natürlicher Sprache (NLP) jedoch Fortschritte, als die Forscher von google „Attention is All You Need“ veröffentlichten. Es schlug den Transformer (das T in ChatGPT) vor, eine neue „Netzwerkarchitektur“, die das (maschinelle) Lernen der Abhängigkeiten zwischen Wörtern erheblich verbesserte, selbst wenn sie im Text weit voneinander entfernt sind. Das Ergebnis dieses Durchbruchs war neben der Auslösung einer Lawine generativer KI auch der Sieg über die Winograd Schema Challenge, bei der die KI in sehr kurzer Zeit vom „zufälligen Raten zur menschlichen Leistung“ überging und eine Punktzahl von 90,1 % erreichte 2019.

Das große Sprachmodell GPT-3 erreichte im Jahr 2020 eine ähnliche Punktzahl (88,3 %). Da ich bestrebt war, den Siegeszug von LLM selbst zu sehen, habe ich bis zur Version von ChatGPT vom 20. Juli 2023 ein paar Winograd-Schema-Wörter ausgeführt. Es gab mir auf einige davon die richtigen Antworten. Aber dann präsentierte ich es mit „Der Kartoffelsack war unter dem Mehlsack platziert, also musste er zuerst bewegt werden. Was musste zuerst bewegt werden?“ und bekam als Antwort folgendes:

Siehe auch  Anwalt findet heraus, dass ChatGPT am Tag der Anhörung in seinem Brief gefälschte Fälle erfunden hat

Im gegebenen Satz bezieht sich „es“ auf den Sack Kartoffeln. Der Satz „Der Sack mit Kartoffeln wurde unter den Sack mit Mehl gelegt, also musste er zuerst bewegt werden“ bedeutet, dass der Sack mit Kartoffeln zuerst bewegt werden musste, bevor man auf den Sack mit Mehl zugreifen oder ihn bewegen konnte, der oben platziert war Es.

Als ich die Position des Kartoffelsacks von „unten“ auf „oben“ änderte, bekam ich als Antwort Folgendes:

Bitte entschuldigen Sie die Verwirrung in meiner vorherigen Antwort. Im gegebenen Satz bezieht sich „es“ auf den Mehlsack. Die korrekte Interpretation des Satzes ist:

„Der Sack mit Kartoffeln war über dem Sack mit Mehl platziert, also musste er zuerst bewegt werden.“

Das bedeutet, dass der Mehlsack zuerst bewegt werden musste, da er sich unter dem Kartoffelsack befand, und dass man ihn aus dem Weg räumen musste, bevor man an den darüber platzierten Kartoffelsack gelangen konnte.

Es scheint, dass der große Fortschritt der KI, von dem einige seiner prominenten Entwickler sagen, dass er bald zu einer Superintelligenz führen wird, die die Menschheit zerstören könnte, zumindest in diesem Fall immer noch kein kindliches Verständnis von Raum und Bewegung und den damit verbundenen Folgen hat beim Bewegen und Manipulieren physischer Objekte.

Manchmal scheint LLM die Welt zu verstehen und zu verstehen, wie man in ihr agiert, und manchmal gelingt es ihnen nicht. Manchmal führen ihre Sprachkenntnisse zu akkuraten Übersetzungen und manchmal zu völligen Misserfolgen. Aber wie steht es mit ihrer beeindruckenden Leistung bei der Winograd Schema Challenge?

In dem Papier, das den Niedergang der Winograd Schema Challenge dokumentiert, führen die Forscher, die etwa zehn Jahre lang daran gearbeitet haben, sie als Test für maschinelle Intelligenz zu bewerben, die menschenähnlichen Leistungen von LLM auf Fehler in der „Formulierung und Ausführung“ des Tests zurück.

Darüber hinaus berichteten sie, dass es Anfang der 2010er Jahre „als es nur wenige Anzeichen dafür gab, dass KI-Systeme bei der Winograd Schema Challenge erfolgreich sein könnten, einige warnten, dass es sich möglicherweise um einen weniger robusten Test handelte, als seine Entwickler gehofft und geglaubt hatten.“ Sie argumentierten, dass … der Erfolg ohne die Lösung des zugrunde liegenden Problems, das die Herausforderung motiviert hatte, eintreten könnte.“

Siehe auch  Der Personal Trainer verwendet ChatGPT-Eingabeaufforderungen, um einen maßgeschneiderten Essensplan zu erstellen

Die Befürworter des Winograd-Schemas geben nun zu, dass die Lösung des Problems „kein Ersatz für die Fähigkeit zum vernünftigen Denken ist, geschweige denn für Intelligenz.“ Die Schwierigkeit, den Erfolg bei einer bestimmten Aufgabe als Ersatz für Intelligenz zu nutzen, besteht bis heute fort, auch wenn die Aufgaben, die Computer erfolgreich ausführen können, immer komplexer werden.“

Oder was Yehoshua Bar-Hillel vor siebzig Jahren (!) den Trugschluss des ersten Schrittes nannte: Der Abstand von der Unfähigkeit, etwas zu tun, bis zu einer schlechten Leistung ist in der Regel viel kürzer als der Abstand von einer schlechten Leistung zur richtigen Ausführung.

Oder was Terry Winograd 2004 laut Nilsson sagte: „Es gibt grundlegende Unterschiede zwischen der Art und Weise, wie SHRDLU und seine Verwandten funktionieren, und dem, was in unserem Gehirn vorgeht.“

Winograd ging davon aus, dass es Jahrzehnte oder länger dauern würde, bis die ursprünglichen Ambitionen der NLP-Forscher verwirklicht würden. „In der Zwischenzeit“, sagte er, „verfolgt die KI viel realistischere Ziele, indem sie in weniger ehrgeizigen Nischen arbeitet oder weniger als menschliche Ergebnisse akzeptiert (wie bei der Übersetzung).“

Nicht länger. Das heutige Ziel von KI-Entwicklern besteht darin, zur künstlichen allgemeinen Intelligenz (AGI) zu gelangen, das gesamte Spektrum menschlicher Intelligenz in Maschinen nachzubilden und gleichzeitig alle ihre Mängel zu beheben.

Nachdem ich 2016 an der O’Reilly AI-Konferenz teilgenommen hatte, schrieb ich:

Vielleicht, nur vielleicht, ist unser Geist kein Computer und Computer ähneln nicht unserem Gehirn? Und vielleicht, nur vielleicht, wenn wir endlich das vergebliche Streben aufgeben, „KI auf menschlicher Ebene“ in Computern zu reproduzieren, werden wir viele zusätzliche – wenn auch „begrenzte“ – Anwendungen von Computern finden, die unser Leben bereichern und verbessern?

Siehe auch:

Lehren aus Computergesprächen und der Zähmung der KI vor 70 Jahren

Wir zeigen, warum KI keine qualitativ hochwertige Übersetzung leisten kann

Folge mir auf Twitter oder LinkedIn. Kasse Mein Webseite.

Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein