Forscher am Oak Ridge National Laboratory trainierten ein großes Sprachmodell (LLM) in der Größe von chatgpt auf dem Frontier-Supercomputer und benötigten dafür nur 3.072 seiner 37.888 GPUs. Das Team veröffentlichte eine Forschungsarbeit Darin wird detailliert beschrieben, wie das Unternehmen dieses Kunststück vollbracht hat und welche Herausforderungen es dabei zu bewältigen hatte.

Der Frontier-Supercomputer ist mit 9.472 Epyc 7A53-CPUs und 37.888 Radeon Instinct 37.888 GPUs ausgestattet. Allerdings nutzte das Team nur 3.072 GPUs, um einen LLM mit einer Billion Parametern zu trainieren, und 1.024, um einen anderen LLM mit 175 Milliarden Parametern zu trainieren.

Das Papier stellt fest, dass die größte Herausforderung beim Training eines so großen LLM die erforderliche Speichermenge ist, die mindestens 14 Terabyte betrug. Dies bedeutete, dass mehrere MI250X-GPUs mit jeweils 64 GB VRAM verwendet werden mussten, was jedoch ein neues Problem mit sich brachte: Parallelität. Um einem LLM mehr GPUs zuzuweisen, ist eine immer bessere Kommunikation erforderlich, um tatsächlich mehr Ressourcen effektiv zu nutzen. Andernfalls würde der Großteil oder die gesamte zusätzliche GPU-Leistung verschwendet werden.

Das Forschungspapier befasst sich mit den Details, wie genau diese Computeringenieure es gemacht haben, aber die Kurzfassung besagt, dass sie auf Frameworks wie Megatron-DeepSpeed ​​und FSDP iterierten und Dinge änderten, damit das Trainingsprogramm auf Frontier optimaler laufen würde. Am Ende waren die Ergebnisse ziemlich beeindruckend – die Effizienz der schwachen Skalierung lag bei 100 %, was im Grunde bedeutet, dass bei zunehmender Arbeitslastgröße mehr GPUs so effizient wie möglich genutzt wurden.

Unterdessen war die starke Skalierungseffizienz mit 89 % für das LLM mit 175 Milliarden Parametern und 87 % für das LLM mit einer Billion Parameter etwas niedriger. Unter starker Skalierung versteht man die Erhöhung der Prozessoranzahl, ohne dass sich die Größe der Arbeitslast ändert. Dies ist laut Amdahls Gesetz tendenziell der Fall, wenn eine höhere Kernanzahl weniger nützlich ist. Sogar 87 % sind ein ordentliches Ergebnis, wenn man bedenkt, wie viele GPUs sie verwendet haben.

Siehe auch  ChatGPT erweitert „Benutzerdefinierte Anweisungen“ für kostenlose Benutzer

Das Team wies jedoch auf einige Probleme bei der Erreichung dieser Effizienz auf Frontier hin und erklärte: „Es muss noch mehr Arbeit in die Erforschung einer effizienten Trainingsleistung auf AMD-GPUs gesteckt werden, und die ROCm-Plattform ist spärlich.“ Wie es in dem Papier heißt, wird das meiste maschinelle Lernen in dieser Größenordnung innerhalb des CUDA-Hardware-Software-Ökosystems von Nvidia durchgeführt, wodurch die Lösungen von AMD und Intel im Vergleich unterentwickelt sind. Natürlich werden solche Bemühungen die Entwicklung dieser Ökosysteme fördern.

Der schnellste Supercomputer der Welt ist jedoch weiterhin Frontier mit seiner reinen AMD-Hardware. An zweiter Stelle steht Aurora mit seiner reinen Intel-Hardware inklusive GPUs, von der allerdings derzeit nur die Hälfte für Benchmark-Einreichungen genutzt wird. Nvidia-GPUs treiben den drittschnellsten Supercomputer Eagle an. Wenn AMD und Intel die Rangliste so halten wollen, müssen die beiden Unternehmen zu den Softwarelösungen von Nvidia aufschließen.

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.