Large Language Models (LLMs) wie GPT-3 und chatgpt haben die KI revolutioniert, indem sie Funktionen zum Verständnis natürlicher Sprache und zur Inhaltsgenerierung bieten. Ihre Entwicklung ist jedoch mit einem hohen Preis verbunden, was die Zugänglichkeit und weitere Forschung einschränkt. Forscher schätzen, dass das Training von GPT-3 OpenAI etwa etwa kostet 5 Millionen Dollar. Dennoch erkannte Microsoft das Potenzial und investierte 1 Milliarde Dollar im Jahr 2019 und 10 Milliarden Dollar im Jahr 2023 im GPT-3- und ChatGPT-Projekt von OpenAI.

LLMs sind Modelle des maschinellen Lernens, die auf umfangreichen Textdaten für NLP-Anwendungen trainiert werden. Sie basieren auf einer Transformer-Architektur und nutzen Aufmerksamkeitsmechanismen für NLP-Aufgaben wie Fragebeantwortung, maschinelle Übersetzung, Stimmungsanalyse usw.

Es stellt sich die Frage: Kann die Effizienz dieser großen Modelle gesteigert und gleichzeitig der Rechenaufwand und die Trainingszeit reduziert werden?

Mehrere Ansätze, wie Progressive neuronale Netze, Netzwerkmorphismus, Parallelität des Intra-Layer-Modells, Wissensvererbungusw. wurden entwickelt, um den Rechenaufwand für das Training neuronaler Netze zu reduzieren. Der Roman LiGO Der von uns besprochene Ansatz (Linear Growth Operator) setzt neue Maßstäbe. Es halbiert den Rechenaufwand für das Training von LLMs.

Bevor diese Technik besprochen wird, ist es wichtig, die Faktoren zu untersuchen, die zu den hohen Kosten für die Herstellung von LLMs beitragen.

Kosten für die Erstellung großer Sprachmodelle

Drei Hauptausgaben für die Entwicklung von LLMs sind folgende:

Siehe auch  Unser Plädoyer, ChatGPTs Bad College Basketball Takes zu stoppen

1. Rechenressourcen

Der Aufbau von LLMs erfordert enorme Rechenressourcen, um mit großen Datensätzen zu trainieren. Sie müssen Milliarden von Parametern verarbeiten und komplexe Muster aus riesigen Textdaten lernen.

Für den Aufbau und das Training von LLMs sind Investitionen in spezielle Hardware wie Grafikprozessoren (GPUs) und Tensorprozessoren (TPUs) erforderlich, um eine Leistung auf dem neuesten Stand der Technik zu erzielen.

Beispielsweise wurde GPT-3 auf einem trainiert Supercomputer mit 10.000 GPUs der Enterprise-Klasse (H100 und A100) und 285.000 CPU-Kernen.

2. Energieverbrauch

Die für den Aufbau von LLMs erforderlichen hohen Rechenressourcen führen zu einem erheblichen Energieverbrauch. Beispielsweise benötigte das Training von GPT-3 175 Milliarden Parameter 14,8 Tage mit 10.000 V100-GPUs, was 3,55 Millionen GPU-Stunden entspricht. Ein solch hoher Energieverbrauch hat auch erhebliche Auswirkungen auf die Umwelt.

3. Datenspeicherung und -verwaltung

LLMs werden an großen Datensätzen trainiert. Beispielsweise wurde GPT-3 auf einem riesigen Textkorpus trainiert Daten, darunter unter anderem Common Crawl, WebText2, Books1, Books2 und Wikipedia. Für das Sammeln, Kuratieren und Speichern dieser Datensätze sind erhebliche Investitionen in die Infrastruktur erforderlich.

Außerdem ist Cloud-Speicher für die Datenspeicherung und menschliches Fachwissen für die Datenvorverarbeitung und Versionskontrolle erforderlich. Darüber hinaus erhöht die Sicherstellung, dass Ihre Datenstrategie Vorschriften wie der DSGVO entspricht, auch die Kosten.

LiGO-Technik: Reduzieren Sie die Kosten für die Erstellung großer Sprachmodelle auf die Hälfte

LiGO (Linear Growth Operator) ist eine neuartige Technik, die von Forschern am MIT entwickelt wurde, um den Rechenaufwand für das Training von LLMs um 50 % zu reduzieren. Die Methode beinhaltet die Initialisierung der Gewichte größerer Modelle anhand der Gewichte kleinerer vorab trainierter Modelle und ermöglicht so eine effiziente Skalierung neuronaler Netze.

Siehe auch  Sollten Sie ChatGPT verwenden? Experten sagen „Ja“, aber nicht als Freund

Bild aus dem Papier: Lernen, vorab trainierte Modelle für ein effizientes Transformer-Training zu entwickeln

Yoon Kimder leitende Autor des Papiers, sagt:

„Man schätzt, dass Trainingsmodelle in der Größenordnung, auf der ChatGPT theoretisch läuft, allein für einen einzigen Trainingslauf Millionen von Dollar kosten könnten. Können wir die Effizienz dieser Trainingsmethoden verbessern, sodass wir immer noch in kürzerer Zeit und für weniger Geld gute Modelle erhalten? Wir schlagen vor, dies durch die Nutzung kleinerer Sprachmodelle zu erreichen, die zuvor trainiert wurden.“

Diese Methode behält die Leistungsvorteile größerer Modelle bei, reduziert jedoch den Rechenaufwand und die Trainingszeit im Vergleich zum Training eines großen Modells von Grund auf. LiGO nutzt einen datengesteuerten linearen Wachstumsoperator, der Tiefen- und Breitenoperatoren für optimale Leistung kombiniert.

Der Artikel nutzte verschiedene Datensätze zur Durchführung textbasierter Experimente, darunter das englische Wikipedia-Korpus zum Training von BERT- und RoBERTa-Modellen und den C4-Datensatz zum Training von GPT2.

Die Experimente mit der LiGO-Technik umfassten das Wachstum von BERT-Small zu BERT-Base, BERT-Base zu BERT-Large, RoBERTaSmall zu RoBERTa-Base, GPT2-Base zu GPT2-Medium und CaiT-XS zu CaiT-S.

Die Forscher verglichen ihren Ansatz mit mehreren anderen Basislinien, darunter Training von Grund auf, progressives Training, bert2BERT und KI.

Die LiGO-Technik bot 44,7 % Einsparungen bei FLOPs (Gleitkommaoperationen pro Sekunde) und 40,7 % Einsparungen bei der Wandzeit im Vergleich zum völligen Training von BERT-Base durch Wiederverwendung des BERT-Small-Modells. Der LiGO-Wachstumsbetreiber übertrifft StackBERT, MSLT, bert2BERT und KI bei der effizienten Schulung.

Vorteile der Verwendung einer Trainingsoptimierungstechnik wie LiGO

LiGO ist eine effiziente Trainingsmethode für neuronale Netze, die folgende Vorteile bietet:

1. Schnelleres Training

Wie bereits erwähnt, ist das schnellere Training der Hauptvorteil der LiGO-Technik. Es schult LLMs in der Hälfte der Zeit, steigert die Produktivität und senkt die Kosten.

Siehe auch  Integrieren Sie ChatGPT für maximale Effizienz in Ihre WordPress-Site

2. Ressourceneffizient

LiGO ist ressourceneffizient, da es die Wandzeit und FLOPs minimiert, was zu einem kostengünstigeren und umweltfreundlicheren Ansatz für das Training großer Transformatormodelle führt.

3. Verallgemeinerung

Die LiGO-Technik hat die Leistung sowohl von Sprach- als auch von Bildtransformatoren verbessert, was darauf hindeutet, dass es sich um eine verallgemeinerbare Technik handelt, die auf verschiedene Aufgaben angewendet werden kann.

Die Entwicklung kommerzieller KI-Produkte ist nur ein Aspekt der Gesamtkosten, die mit KI-Systemen verbunden sind. Ein weiterer wesentlicher Kostenfaktor entsteht durch den täglichen Betrieb. Zum Beispiel kostet es OpenAI etwa 700.000 $ jeden Tag, um Anfragen mit ChatGPT zu beantworten. Von den Forschern wird erwartet, dass sie weiterhin Ansätze erforschen, die LLMs während des Trainings kostengünstig und zur Laufzeit zugänglicher machen.

Weitere KI-bezogene Inhalte finden Sie unter unite.ai.

4.9/5 - (208 votes)
Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein