Der leistungsstärkste Supercomputer der Welt hat etwas mehr als 8 % der GPUs verwendet, mit denen er ausgestattet ist, um ein großes Sprachmodell (LLM) zu trainieren, das eine Billion Parameter enthält – vergleichbar mit GPT-4 von OpenAI.
Frontier mit Sitz im Oak Ridge National Laboratory nutzte 3.072 seiner AMD Radeon Instinct GPUs, um ein KI-System auf der Billionen-Parameter-Skala zu trainieren, und 1.024 dieser GPUs (ungefähr 2,5 %) nutzte es, um ein Modell mit 175 Milliarden Parametern zu trainieren , im Wesentlichen die gleiche Größe wie chatgpt.
Den Forschern zufolge benötigten die Forscher mindestens 14 TB RAM, um diese Ergebnisse zu erzielen ihr Papier, aber jede MI250X-GPU verfügte nur über 64 GB VRAM, was bedeutete, dass die Forscher mehrere GPUs zusammenfassen mussten. Dies brachte jedoch eine weitere Herausforderung in Form von Parallelität mit sich, was bedeutete, dass die Komponenten viel besser und effektiver kommunizieren mussten, da die Gesamtgröße der für das Training des LLM verwendeten Ressourcen zunahm.
Den leistungsstärksten Supercomputer der Welt in Betrieb nehmen
LLMs werden normalerweise nicht auf Supercomputern trainiert, sondern auf speziellen Servern und erfordern viel mehr GPUs. ChatGPT wurde beispielsweise auf mehr als 20.000 GPUs trainiert TrendForce. Die Forscher wollten jedoch zeigen, ob sie einen Supercomputer viel schneller und effektiver trainieren können, indem sie verschiedene Techniken nutzen, die die Supercomputer-Architektur ermöglicht.
Die Wissenschaftler verwendeten eine Kombination aus Tensor-Parallelität – Gruppen von GPUs, die Teile desselben Tensors gemeinsam nutzen – und Pipeline-Parallelität – Gruppen von GPUs, die benachbarte Komponenten beherbergen. Sie nutzten auch Datenparallelität, um eine große Anzahl von Token gleichzeitig und eine größere Menge an Rechenressourcen zu verbrauchen. Der Gesamteffekt bestand darin, eine viel schnellere Zeit zu erreichen.
Für das 22-Milliarden-Parameter-Modell erreichten sie einen Spitzendurchsatz von 38,38 % (73,5 TFLOPS), 36,14 % (69,2 TFLOPS) für das 175-Milliarden-Parameter-Modell und 31,96 % Spitzendurchsatz (61,2 TFLOPS) für das 1-Billion-Parameter-Modell .
Sie erreichten außerdem eine 100 % schwache Skalierungseffizienz sowie eine 89,93 % starke Skalierungsleistung für das 175-Milliarden-Modell und eine 87,05 % starke Skalierungsleistung für das 1-Billionen-Parameter-Modell.
Obwohl die Forscher offen über die verwendeten Rechenressourcen und die beteiligten Techniken sprachen, versäumten sie es, den Zeitrahmen zu erwähnen, der mit der Ausbildung eines LLM auf diese Weise verbunden ist.
TechRadar Pro hat die Forscher nach dem Zeitplan gefragt, aber zum Zeitpunkt des Verfassens dieses Artikels haben sie noch nicht geantwortet.