KI-Chatbots zeigen eine beeindruckende Fähigkeit, aus einfachen Eingabeaufforderungen in natürlicher Sprache klaren und kohärenten Text zu generieren. Aber was passiert hinter den Kulissen?
Im folgenden Auszug aus Wie KI funktioniert: Von der Zauberei zur Wissenschafteine aktuelle Veröffentlichung von No Starch Press, Autor und Programmierer Ronald Kneusel schlüsselt die Komponenten großer Sprachmodelle (LLMs) auf, die beliebte KI-Chatbots wie z chatgpt von OpenAI und google Bard. Kneusel erklärt, wie LLMs verwendet werden Transformator Neuronale Netze – eine Art KI-Architektur, die 2017 eingeführt wurde – verarbeiten Eingabetexte und ermöglichen es ihnen, komplexe Beziehungen und Muster in riesigen Datensätzen zu identifizieren.
Schauen Sie sich den Rest an Wie KI funktioniert für einen tiefen Einblick in die Geschichte und das Innenleben der KI, der keine umfangreiche Mathematik oder Programmierung erfordert. Weitere Informationen von Kneusel finden Sie in seinem Interview mit TechTarget Editorial, in dem er über den generativen KI-Boom spricht, einschließlich der Vorteile und Grenzen von LLMs und der Bedeutung von Ausrichtung.
Große Sprachmodelle sind beeindruckend und leistungsstark. Wie funktionieren sie? Lassen Sie uns versuchen, eine Antwort zu finden.
Ich beginne am Ende mit ein paar Kommentaren zum Abschluss von „Sparks of Artificial General Intelligence“. Papier zuvor erwähnt:
Wie funktioniert [GPT-4] begründen, planen und erschaffen? Warum weist es eine so allgemeine und flexible Intelligenz auf, wenn es im Kern lediglich aus der Kombination einfacher algorithmischer Komponenten besteht – Gradientenabstieg und groß angelegte Transformatoren mit extrem großen Datenmengen? Diese Fragen sind Teil des Mysteriums und der Faszination von LLMs, die unser Verständnis von Lernen und Kognition herausfordern, unsere Neugier wecken und zu tiefergehender Forschung motivieren.
Dieses Zitat enthält Fragen, auf die es derzeit keine überzeugenden Antworten gibt. Einfach ausgedrückt wissen Forscher nicht, warum große Sprachmodelle wie GPT-4 tun, was sie tun. Es gibt sicherlich Hypothesen, die nach Beweisen und Beweisen suchen, aber während ich dies schreibe, sind keine bewiesenen Theorien verfügbar. Daher können wir nur das besprechen Waswie in dem, was ein großes Sprachmodell mit sich bringt, und nicht das Wie seines Verhaltens.
Große Sprachmodelle verwenden eine neue Klasse neuronaler Netze, die Transformator, also fangen wir dort an. (GPT steht für generativer vortrainierter Transformator.) Die Transformer-Architektur erschien 2017 in der Literatur mit dem einflussreichen Artikel „Attention Is All You Need“ der Google-Forscher Ashish Vaswani et al. Das Papier wurde bis März 2023 über 70.000 Mal zitiert.
Traditionell werden Modelle verwendet, die Sequenzen (z. B. Sätze) verarbeiten wiederkehrende neuronale Netze, die ihre Ausgabe zusammen mit der nächsten Eingabe der Sequenz als Eingabe zurückgeben. Dies ist das logische Modell für die Textverarbeitung, da das Netzwerk den Gedanken des Gedächtnisses über die mit dem nächsten Token zurückgespeiste Ausgabe integrieren kann. Tatsächlich verwendeten frühe Deep-Learning-Übersetzungssysteme wiederkehrende Netzwerke. Allerdings verfügen rekurrente Netzwerke über ein kleines Gedächtnis und sind schwierig zu trainieren, was ihre Anwendbarkeit einschränkt.
Transformatornetzwerke verfolgen einen anderen Ansatz: Sie nehmen den gesamten Input auf einmal entgegen und verarbeiten ihn parallel. Transformatornetzwerke umfassen typischerweise einen Encoder und einen Decoder. Der Encoder lernt Darstellungen und Assoziationen zwischen den Teilen der Eingabe (denken Sie Sätze), während der Decoder die gelernten Assoziationen verwendet, um eine Ausgabe zu erzeugen (denken Sie mehr Sätze).
Große Sprachmodelle wie GPT verzichten auf den Encoder und lernen die notwendige Darstellung stattdessen unbeaufsichtigt anhand eines riesigen Textdatensatzes. Nach dem Vortraining generiert der Decoder-Teil des Transformatormodells Text als Reaktion auf die Eingabeaufforderung.
Die Eingabe in ein Modell wie GPT-4 ist eine aus Wörtern bestehende Textfolge. Das Modell zerlegt dies in sogenannte Einheiten Token. Ein Token kann ein Wort, ein Teil eines Wortes oder sogar ein einzelnes Zeichen sein. Das Vortraining zielt darauf ab, Token mehrdimensional abzubilden Raum einbettenDies geschieht, indem jedes Token einem Vektor zugeordnet wird, der als Punkt in diesem Raum betrachtet werden kann.
Die erlernte Zuordnung von Token zu Vektoren erfasst komplexe Beziehungen zwischen den Token, sodass Token mit ähnlichen Bedeutungen näher beieinander liegen als Token mit unterschiedlichen Bedeutungen. Wie beispielsweise in Abbildung 7-3 dargestellt, platziert die Zuordnung (Kontextkodierung) nach dem Vortraining „Hund“ näher an „Fuchs“ als an „Dosenöffner“. Der Einbettungsraum hat viele Dimensionen, nicht nur die zwei in Abbildung 7-3, aber der Effekt ist der gleiche.
Die Kontextkodierung wird während des Vortrainings gelernt, indem das Modell gezwungen wird, das nächste Token vorherzusagen, wenn alle vorherigen Token in einer Eingabe vorhanden sind. Wenn die Eingabe tatsächlich „Rosen sind rot“ lautet, wird das Modell während des Vortrainingsprozesses aufgefordert, das nächste Token nach „Rosen sind“ vorherzusagen. Wenn das vorhergesagte Token nicht „rot“ ist, verwendet das Modell die Verlustfunktion und Backpropagation, um seine Gewichte zu aktualisieren, und führt dabei nach geeigneter Mittelung des Fehlers über einen Minibatch einen Gradientenabstiegsschritt aus. Trotz all ihrer Fähigkeiten werden große Sprachmodelle auf die gleiche Weise trainiert wie andere neuronale Netze.
Das Vortraining ermöglicht es dem Modell, Sprache, einschließlich Grammatik und Syntax, zu lernen und scheinbar genug Wissen über die Welt zu erwerben, um die neu entstehenden Fähigkeiten zu ermöglichen, die die Welt der KI auf den Kopf gestellt haben.
Der Decoderschritt übernimmt die Eingabeaufforderung und erzeugt ein Ausgabetoken nach dem anderen, bis ein eindeutiges Stopptoken generiert wird. Da während des Vortrainings so viel über die Sprache und die Funktionsweise der Welt gelernt wurde, hat der Decoderschritt den Nebeneffekt, dass er eine außergewöhnliche Ausgabe erzeugt, obwohl der Decoder am Ende nur das wahrscheinlichste Token nach dem anderen vorhersagt.
Genauer gesagt werden während des Vorhersageprozesses Modelle im GPT-Stil verwendet Aufmerksamkeit um den verschiedenen Token in der Eingabesequenz Bedeutung zuzuweisen und so die Beziehungen zwischen ihnen zu erfassen. Dies ist der Hauptunterschied zwischen einem Transformatormodell und älteren rekurrenten neuronalen Netzen. Der Transformator kann auf verschiedene Teile der Eingabesequenz achten und so die Beziehungen zwischen Token identifizieren und verwenden, selbst wenn diese innerhalb der Eingabe weit voneinander entfernt sind.
Wenn LLMs im Chat-Modus verwendet werden, erwecken sie die Illusion einer hin- und hergehenden Diskussion, während in Wirklichkeit jede neue Eingabeaufforderung des Benutzers zusammen mit dem gesamten vorherigen Text (den Eingabeaufforderungen des Benutzers und den Antworten des Modells) an das Modell weitergeleitet wird. Transformatormodelle haben eine feste Eingangsbreite (Kontextfenster), was derzeit etwa 4.000 Token für GPT-3.5 und etwa 32.000 für GPT-4 beträgt. Das große Eingabefenster ermöglicht es dem Aufmerksamkeitsteil des Modells, zu Dingen zurückzukehren, die weit zurück in der Eingabe erschienen, was bei wiederkehrenden Modellen nicht möglich ist.
Große Sprachmodelle sind auf Wunsch nach einem Vortraining einsatzbereit, viele Anwendungen optimieren sie jedoch zunächst anhand domänenspezifischer Daten. Bei generischen Modellen wie GPT-4 bestand die Feinabstimmung wahrscheinlich aus einem Schritt namens Verstärkungslernen aus menschlichem Feedback (RLHF). In RLHF wird das Modell anhand des Feedbacks realer Menschen weiter trainiert, um seine Reaktionen an menschlichen Werten und gesellschaftlichen Erwartungen auszurichten.
Dies ist notwendig, da LLMs keine bewussten Einheiten sind und daher die menschliche Gesellschaft und ihre vielen Regeln nicht verstehen können. Beispielsweise werden nicht ausgerichtete LLMs mit Schritt-für-Schritt-Anleitungen für viele Aktivitäten antworten, die die menschliche Gesellschaft einschränkt, wie etwa die Herstellung von Drogen oder Bomben. Das „Sparks“-Papier enthält mehrere solcher Beispiele für GPT-4-Ausgaben vor dem RLHF-Schritt, die das Modell mit den gesellschaftlichen Erwartungen in Einklang brachten.
Das Open-Source-Alpaka-Modell der Stanford University basiert auf LLaMa, einem großen Sprachmodell von Meta. Zum jetzigen Zeitpunkt hat Alpaca keinen Anpassungsprozess durchlaufen und wird Fragen beantworten, die GPT und andere kommerzielle LLMs zu Recht nicht beantworten wollen.
Fazit: Die Ausrichtung ist absolut entscheidend, um sicherzustellen, dass leistungsstarke Sprachmodelle den menschlichen Werten und gesellschaftlichen Normen entsprechen.