Letzten März, gerade Zwei Wochen nach der Veröffentlichung von GPT-4 äußerten sich die Forscher von Microsoft stillschweigend angekündigt ein Plan, Millionen von APIs – Tools, die alles tun können, von der Bestellung einer Pizza über das Lösen physikalischer Gleichungen bis hin zur Steuerung des Fernsehers in Ihrem Wohnzimmer – in einem Kompendium zusammenzustellen, das für große Sprachmodelle (LLMs) zugänglich gemacht werden soll. Dies war nur ein Meilenstein im Wettlauf von Industrie und Wissenschaft um das am besten Wege Zu unterrichten LLMs wie man Werkzeuge manipuliert, was das Potenzial der KI stärker steigern würde als alle beeindruckenden Fortschritte, die wir bisher gesehen haben.

Ziel des Microsoft-Projekts ist es, der KI beizubringen, alle digitalen Tools auf einen Schlag zu nutzen – ein cleverer und effizienter Ansatz. Heutzutage können LLMs eine Menge leisten chatgpt-effe6e29cd58″>gute Arbeit Ich kann Ihnen Pizzabeläge empfehlen, wenn Sie Ihre Ernährungsvorlieben beschreiben und einen Entwurf erstellen können Dialog die Sie verwenden können, wenn Sie im Restaurant anrufen. Doch die meisten KI-Tools können die Bestellung nicht aufgeben, auch nicht online. Im Gegensatz dazu ist Googles Siebenjähriger google-duplex-web-assistant-online-food-orders-android“>Assistent Das Tool kann eine Stimme am Telefon synthetisieren und ein Online-Bestellformular ausfüllen, aber es kann kein Restaurant auswählen oder Ihre Bestellung erraten. Durch die Kombination dieser Fähigkeiten könnte eine Werkzeug-verwendende KI jedoch alles erledigen. Ein LLM mit Zugriff auf Ihre vergangenen Gespräche und Tools wie Kalorienrechner, eine Restaurant-Menüdatenbank und Ihr digitales Zahlungsportfolio könnte durchaus zu dem Schluss kommen, dass Sie abnehmen möchten und eine kalorienarme Option wünschen, und das nächstgelegene Restaurant mit den Belägen finden, die Sie mögen und geben Sie den Lieferauftrag auf. Wenn es Zugriff auf Ihren Zahlungsverlauf hat, könnte es sogar erraten, wie großzügig Sie normalerweise Trinkgeld geben. Wenn es Zugriff auf die Sensoren Ihrer Smartwatch oder Ihres Fitness-Trackers hat, kann es möglicherweise erkennen, wann Ihr Blutzuckerspiegel niedrig ist, und den Kuchen bestellen, bevor Sie überhaupt merken, dass Sie hungrig sind.

Siehe auch  Unter Verwendung natürlicher Sprache nutzte das Team der New York University den Chat-Roboter ChatGPT, um einen Mikroprozessor | Mikroprozessor | KI | Ph.D. zu entwerfen.

Die vielleicht überzeugendsten potenziellen Anwendungen des Werkzeugeinsatzes sind diejenigen, die KIs die Möglichkeit geben, sich selbst zu verbessern. Angenommen, Sie bitten zum Beispiel einen Chatbot um Hilfe bei der Interpretation eines Aspekts des antiken römischen Rechts, von dem niemand gedacht hatte, dass er Beispiele in die ursprüngliche Schulung des Modells aufnehmen würde. Ein LLM, der befugt ist, akademische Datenbanken zu durchsuchen und seinen eigenen Schulungsprozess auszulösen, könnte sein Verständnis des römischen Rechts verfeinern, bevor er antwortet. Der Zugriff auf spezielle Tools könnte einem solchen Modell sogar dabei helfen, sich besser zu erklären. Während LLMs wie GPT-4 ihre Argumentation auf Nachfrage bereits recht gut erläutern können, stammen diese Erklärungen aus einer „Black Box“ und sind anfällig für Fehler und Halluzinationen. Aber ein Tool-verwendendes LLM könnte es sezieren seine eigenen Interna und bietet empirische Bewertungen seiner eigenen Argumentation und deterministische Erklärungen dafür, warum es die Antwort gegeben hat, die es gegeben hat.

Wenn ein LLM, der Tools nutzt, Zugriff auf Tools erhält, mit denen er menschliches Feedback einholen kann, könnte er sogar Fachwissen generieren, das noch nicht im Internet erfasst ist. Es könnte eine Frage auf Reddit oder Quora posten oder eine Aufgabe an einen Menschen auf Amazons Mechanical Turk delegieren. Es könnte sogar durch Umfrageforschung nach Daten über menschliche Vorlieben suchen, entweder um Ihnen direkt eine Antwort zu geben oder um das eigene Training zu verfeinern, um in Zukunft Fragen besser beantworten zu können. Mit der Zeit könnten werkzeugnutzende KIs den werkzeugnutzenden Menschen sehr ähnlich sehen. Ein LLM kann Code viel schneller generieren als jeder menschliche Programmierer, sodass er die Systeme und Dienste Ihres Computers problemlos manipulieren kann. Es könnte auch die Tastatur und den Cursor Ihres Computers so verwenden, wie es ein Mensch tun würde, sodass er jedes Programm verwenden könnte, das Sie verwenden. Und es könnte seine eigenen Fähigkeiten verbessern, indem es Tools nutzt, um Fragen zu stellen, Recherchen durchzuführen und Code zu schreiben, um ihn in sich selbst zu integrieren.

Siehe auch  Microsoft Japan führt isoliertes ChatGPT ein, um vertrauliche Informationen zu verarbeiten

Es ist leicht zu erkennen, dass diese Art der Werkzeugnutzung mit enormen Risiken verbunden ist. Stellen Sie sich vor, ein LLM könnte die Telefonnummer einer Person finden, sie anrufen und heimlich ihre Stimme aufzeichnen, anhand der größten Anbieter in ihrer Region erraten, welche Bank sie nutzt, sich bei einem Telefonat mit dem Kundendienst als die Person ausgeben, um ihr Passwort zurückzusetzen, und ihre Identität auflösen Konto, um einer politischen Partei eine Spende zu leisten. Jede dieser Aufgaben ruft ein einfaches Tool auf – eine Internetsuche, einen Sprachsynthesizer, eine Bank-App – und das LLM schreibt die Abfolge der Aktionen mithilfe der Tools.

Wir wissen noch nicht, wie erfolgreich einer dieser Versuche sein wird. So bemerkenswert flüssig LLMs auch sind, sie wurden nicht speziell für die Bedienung von Werkzeugen entwickelt, und es bleibt abzuwarten, wie sich ihre frühen Erfolge bei der Werkzeugnutzung auf zukünftige Anwendungsfälle wie die hier beschriebenen übertragen werden. Daher könnte es ein wenig so sein, als würde man ein Kleinkind in einem Waffendepot freilassen, wenn man der aktuellen generativen KI plötzlich Zugriff auf Millionen von APIs gewährt – wie Microsoft es vorhat.

Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein