Maschinelles Lernen (ML), ein Teilgebiet der künstlichen Intelligenz, lehrt Computer, Aufgaben auf der Grundlage strukturierter Daten, Sprache, Audio oder Bilder zu lösen, indem es Beispiele für Eingaben und die gewünschten Ausgaben bereitstellt. Dies unterscheidet sich von der herkömmlichen Computerprogrammierung, bei der Programmierer eine Abfolge spezifischer Anweisungen schreiben. Hier das ML-Modell lernt durch Verstellen seiner vielen Knöpfe – oft in Millionenhöhe – gewünschte Ergebnisse zu erzeugen.
ML hat in der Vergangenheit Methoden mit handgefertigten Funktionen entwickelt, die möglicherweise nur für spezifische, eng begrenzte Probleme funktionieren. Es gibt mehrere solcher Beispiele. Im Text kann die Klassifizierung eines Dokuments als wissenschaftlich oder literarisch durch Zählen der Häufigkeit, mit der bestimmte Wörter vorkommen, gelöst werden. Bei Audio wird gesprochener Text erkannt, indem der Ton in eine Zeit-Frequenz-Darstellung umgewandelt wird. In Bildern kann ein Auto gefunden werden, indem nach bestimmten autoähnlichen kantenförmigen Mustern gesucht wird.
Solche handgefertigten Funktionen werden mit einfachen oder flachen Lernklassifikatoren kombiniert, die typischerweise über bis zu Zehntausende Knöpfe verfügen. Im Fachjargon werden diese Regler Parameter genannt.
Tiefe neuronale Netze
In der ersten Hälfte der 2010er Jahre eroberten tiefe neuronale Netze (DNNs) ML im Sturm und ersetzten die klassische Pipeline aus handgefertigten Funktionen und einfachen Klassifikatoren. DNNs erfassen ein vollständiges Dokument oder Bild und generieren eine endgültige Ausgabe, ohne dass eine bestimmte Methode zum Extrahieren von Merkmalen angegeben werden muss.
Obwohl diese tiefen und großen Modelle in der Vergangenheit existierten, behinderte ihre große Größe – Millionen von Parametern – ihre Verwendung. Das Wiederaufleben von DNNs in den 2010er Jahren wird auf die Verfügbarkeit großer Datenmengen und schneller paralleler Rechenchips, sogenannter Grafikprozessoren, zurückgeführt.
Darüber hinaus waren die für Text oder Bilder verwendeten Modelle immer noch unterschiedlich: Wiederkehrende neuronale Netze waren beim Sprachverständnis beliebt, während Faltungs-Neuronale Netze (CNNs) beim Computer Vision, also dem maschinellen Verständnis der visuellen Welt, beliebt waren.
‚ „Aufmerksamkeit ist alles, was Sie brauchen“
In einem bahnbrechenden Artikel mit dem Titel „Attention Is All You Need“, der 2017 erschien, schlug ein Team von google Transformers vor – eine DNN-Architektur, die heute in allen Modalitäten an Popularität gewonnen hat: Bild, Audio und Sprache. Im Originalpapier wurden Transformatoren für die Aufgabe vorgeschlagen, einen Satz von einer Sprache in eine andere zu übersetzen, ähnlich wie Google Translate es beispielsweise bei der Konvertierung vom Englischen ins Hindi macht.
Ein Transformator ist ein zweiteiliges neuronales Netzwerk. Der erste Teil ist ein „Encoder“, der den Eingabesatz in der Quellsprache (z. B. Englisch) aufnimmt; der zweite ist ein „Decoder“, der den übersetzten Satz in der Zielsprache (Hindi) generiert.
Der Encoder wandelt jedes Wort im Quellsatz in eine abstrakte numerische Form um, die die Bedeutung des Wortes im Kontext des Satzes erfasst und in einer Speicherbank speichert. So wie eine Person schreiben oder sprechen würde, generiert der Decoder jeweils ein Wort und bezieht sich dabei auf das, was bisher generiert wurde, und indem er auf die Speicherbank zurückblickt, um das entsprechende Wort zu finden. Beide Prozesse nutzen einen Mechanismus namens „Aufmerksamkeit“, daher der Name des Artikels.
Eine wesentliche Verbesserung gegenüber früheren Methoden ist die Fähigkeit eines Transformators, lange Sätze oder Absätze korrekt zu übersetzen.
Die Einführung von Transformatoren nahm daraufhin explosionsartig zu. Das große „T“ in chatgpt steht beispielsweise für „Transformer“.
Transformatoren sind auch in der Computer Vision populär geworden: Sie schneiden ein Bild einfach in kleine quadratische Teile und ordnen sie an, genau wie Wörter in einem Satz. Auf diese Weise und nach dem Training mit großen Datenmengen kann ein Transformator eine bessere Leistung als CNNs bieten. Heutzutage stellen Transformatormodelle den besten Ansatz für die Bildklassifizierung, Objekterkennung und -segmentierung, Aktionserkennung und eine Vielzahl anderer Aufgaben dar.
Die Fähigkeit von Transformern, alles aufzunehmen, wurde ausgenutzt, um gemeinsame Vision- und Sprachmodelle zu erstellen, die es Benutzern ermöglichen, nach einem Bild zu suchen (z. B. Google Bildersuche), es zu beschreiben und sogar Fragen zum Bild zu beantworten.
Was ist „Aufmerksamkeit“?
Durch Aufmerksamkeit in ML kann ein Modell lernen, wie viel Bedeutung verschiedenen Eingaben beigemessen werden sollte. Im Übersetzungsbeispiel ermöglicht die Aufmerksamkeit dem Modell, Wörter aus der Speicherbank auszuwählen oder zu gewichten, wenn es entscheidet, welches Wort als nächstes generiert werden soll. Beim Beschreiben eines Bildes ermöglicht die Aufmerksamkeit den Modellen, bei der Generierung des nächsten Wortes auf die relevanten Teile des Bildes zu blicken.
Ein faszinierender Aspekt aufmerksamkeitsbasierter Modelle ist ihre Fähigkeit zur Selbstfindung durch die Analyse großer Datenmengen. Im Fall der Übersetzung wird dem Modell nie gesagt, dass das Wort „Hund“ auf Englisch „कुत्ता“ auf Hindi bedeutet. Stattdessen findet es diese Assoziationen, indem es mehrere Trainingssatzpaare sieht, in denen „Hund“ und „कुत्ता“ zusammen vorkommen.
Eine ähnliche Beobachtung gilt für Bildunterschriften. Bei einem Bild eines „Vogels, der über Wasser fliegt“ wird dem Modell nie mitgeteilt, welcher Bildbereich „Vogel“ und welcher „Wasser“ entspricht. Stattdessen werden durch das Training mehrerer Bild-Bildunterschrift-Paare mit dem Wort „Vogel“ häufige Muster im Bild entdeckt, um das fliegende Ding mit „Vogel“ zu assoziieren.
Transformers sind Aufmerksamkeitsmodelle für Steroide. Sie verfügen über mehrere Aufmerksamkeitsebenen sowohl innerhalb des Encoders, um einen aussagekräftigen Kontext über den Eingabesatz oder das eingegebene Bild hinweg bereitzustellen, als auch vom Decoder bis zum Encoder, wenn ein übersetzter Satz generiert oder ein Bild beschrieben wird.
Die Milliarden- und Billionenskala
Im letzten Jahr sind Transformatormodelle größer geworden und trainieren auf mehr Daten als zuvor. Wenn diese Kolosse auf geschriebenem Text trainieren, werden sie als große Sprachmodelle (LLMs) bezeichnet. ChatGPT verwendet Hunderte Milliarden Parameter, während GPT-4 Hunderte Billionen verwendet.
Während diese Modelle auf einfache Aufgaben wie das Ausfüllen von Lücken oder das Vorhersagen des nächsten Wortes trainiert werden, sind sie sehr gut darin, Fragen zu beantworten, Geschichten zu erstellen, Dokumente zusammenzufassen, Code zu schreiben und sogar mathematische Textaufgaben schrittweise zu lösen. Transformatoren sind auch das Fundament von generativ Modelle, die realistische Bilder und Audio erzeugen. Ihr Nutzen in verschiedenen Bereichen macht Transformatoren zu einem sehr leistungsstarken und universellen Modell.
Es gibt jedoch einige Bedenken. Die wissenschaftliche Gemeinschaft muss noch herausfinden, wie diese Modelle rigoros bewertet werden können. Es gibt auch Fälle von „Halluzinationen“, bei denen Models selbstbewusste, aber falsche Behauptungen aufstellen. Wir müssen uns dringend mit den gesellschaftlichen Bedenken befassen, die sich aus ihrer Nutzung ergeben, etwa hinsichtlich des Datenschutzes und der Zuordnung zu kreativen Werken.
Gleichzeitig wäre Optimismus angesichts der enormen Fortschritte, der laufenden Bemühungen, Leitplanken für ihre Nutzung zu schaffen und der Arbeit an der Nutzung dieser Modelle für positive Ergebnisse (z. B. im Gesundheitswesen, in der Bildung und in der Landwirtschaft) nicht fehl am Platz.
Dr. Makarand Tapaswi ist leitender Wissenschaftler für maschinelles Lernen bei Wadhwani AI, einer gemeinnützigen Organisation, die sich mit der Nutzung von KI für soziale Zwecke befasst, und Assistenzprofessor an der Computer Vision-Gruppe am IIIT Hyderabad, Indien.