Die Geschichte beginnt im Jahr 2017 mit einem bahnbrechenden Artikel mit dem Titel „Attention Is All You Need“. In diesem Artikel wurde eine bahnbrechende Architektur namens Transformer vorgestellt. Sein Hauptzweck bestand darin, bei maschinellen Übersetzungsaufgaben hervorragende Leistungen zu erbringen, und das mit bemerkenswertem Erfolg. Die Autoren haben wahrscheinlich nicht vorhergesehen, welche immensen Auswirkungen diese Architektur auf die KI haben würde.

Der ursprünglich für die Übersetzung konzipierte Transformer dominierte in den folgenden Jahren verschiedene KI-Anwendungen. Der Name chatgpt leitet sich von „Generative Pre-Trained Transformer“ ab. Es basiert auf dem Transformatormodell, um basierend auf den empfangenen Eingaben menschenähnlichen Text zu generieren. Allerdings ist es keine leichte Aufgabe, ein System wie ChatGPT von Grund auf neu zu erstellen. Es handelt sich um ein hochkomplexes, produktionstaugliches System. Es durchläuft umfangreiche Schulungen, einschließlich Vorschulung und Feinabstimmung, und wird für sein Wissen mit einem beträchtlichen Teil des Internets gefüttert.

Aber lasst uns unseren Fokus von der Replikation von ChatGPT auf das Verständnis seiner Kernprinzipien verlagern. Ich möchte Sie durch den Prozess des Trainierens eines Sprachmodells mithilfe der Transformer-Architektur führen. Aber anstatt uns mit riesigen Datensätzen aus dem Internet zu befassen, können wir mit etwas Kleinerem und Überschaubarerem arbeiten. Zum Beispiel: „winziger Shakespeare-Datensatz.“ Es handelt sich um einen einzigartigen Datensatz, der alle Werke Shakespeares in einer einzigen Datei mit einer Gesamtgröße von etwa einem Megabyte vereint. Die Idee hier besteht darin, einem Modell beizubringen, die Muster in diesem kompakten Datensatz zu verstehen. Beginnen wir dazu mit der Tokenisierung.

Bei der Tokenisierung handelt es sich um den Prozess der Umwandlung von Rohtext in eine Folge von Ganzzahlen. In diesem Artikel entscheide ich mich für einen Tokenizer auf Zeichenebene. Jedem Zeichen wird eine eindeutige Ganzzahl zugewiesen, sodass das Modell den Text verstehen kann. Es ist ein einfacher Ansatz, aber bedenken Sie, dass es ausgefeiltere Tokenisierungsmethoden wie Unterwort- oder Wort-Tokenisierung gibt, jede mit ihrer eigenen Komplexität.

Siehe auch  Haben Sie eine Frage zu Visa und Jobs? So nutzen Sie den ChatGPT-ähnlichen Dienst von Dubai – Neuigkeiten
https://www.freecodecamp.org/news/evolution-of-tokenization/

Jetzt, nach der Tokenisierung, können wir diesen Text zum Training in das Transformer-Modell einspeisen. Bedenken Sie jedoch, dass wir nicht den gesamten Text auf einmal einspeisen. Das wäre rechenintensiv. Stattdessen teilen wir den Text in kleinere Abschnitte auf, wobei jeder Abschnitt als Trainingsbeispiel dient.

Diese Blöcke haben eine maximale Länge, die oft als „Blockgröße“ bezeichnet wird. Nehmen wir zum Beispiel an, die Blockgröße ist auf acht eingestellt. Jeder Block enthält acht Zeichen aus dem Text sowie ein zusätzliches Zeichen (das „Plus Eins“), das als Ziel für das Modell dient.

Die Aufgabe des Modells besteht darin, das nächste Zeichen basierend auf den vorhergehenden Zeichen vorherzusagen. Auf diese Weise enthält jeder Block mehrere Beispiele, wobei jedes Zeichen ein Vorhersageziel ist. Für jeden Block gibt es mehrere Beispiele, die den unterschiedlichen Positionen innerhalb des Blocks entsprechen.

https://towardsdatascience.com/examining-the-transformer-architecture-part-1-the-openai-gpt-2-controversy-feceda4363bb?gi=b37d84c6c8f1

Mithilfe dieser Beispiele lernt das Modell, an verschiedenen Punkten der Eingabesequenz Vorhersagen zu treffen. Der dem Modell bereitgestellte Kontext reicht von einem Zeichen bis zur vollen Blockgröße, wodurch sichergestellt wird, dass das Modell in der Lage ist, unterschiedliche Kontextlängen zu verarbeiten.

Beim Training an diesen Beispielen geht es nicht nur um die Recheneffizienz; Es geht darum, das Modell bei der Anpassung an unterschiedliche Kontextlängen zu unterstützen. Diese Anpassungsfähigkeit ist von entscheidender Bedeutung, wenn das Modell Text generiert, da es möglicherweise mit minimalem Kontext beginnen und während der Textgenerierung nach und nach längere Sequenzen aufbauen muss.

Seien Sie gespannt auf den super spannenden Teil 2 😛

Vielen Dank fürs Lesen, toller Leser! 🎉 Erhalten Sie Ihre regelmäßige Dosis atemberaubender Bilder direkt in Ihren Posteingang. Abonnieren Sie meinen Newsletter unter kunwarvikrant.substack.com, und lasst uns gemeinsam auf dieses visuelle Abenteuer eingehen! 🚀

Siehe auch  Sicherheit in ChatGPT: So verwenden Sie den Bot ohne Konsequenzen
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein