Start ChatGPT Frontier hat ein großes Sprachmodell in ChatGPT-Größe mit nur 3.000 seiner 37.888...

Frontier hat ein großes Sprachmodell in ChatGPT-Größe mit nur 3.000 seiner 37.888 Radeon-GPUs trainiert – der schnellste Supercomputer der Welt durchläuft ein Billion-Parameter-Modell mit nur 8 Prozent seiner MI250X-GPUs

Von

Januar 7, 2024

Forscher am Oak Ridge National Laboratory trainierten ein großes Sprachmodell (LLM) in der Größe von chatgpt auf dem Frontier-Supercomputer und benötigten dafür nur 3.072 seiner 37.888 GPUs. Das Team veröffentlichte eine Forschungsarbeit Darin wird detailliert beschrieben, wie das Unternehmen dieses Kunststück vollbracht hat und welche Herausforderungen es dabei zu bewältigen hatte.

Der Frontier-Supercomputer ist mit 9.472 Epyc 7A53-CPUs und 37.888 Radeon Instinct 37.888 GPUs ausgestattet. Allerdings nutzte das Team nur 3.072 GPUs, um einen LLM mit einer Billion Parametern zu trainieren, und 1.024, um einen anderen LLM mit 175 Milliarden Parametern zu trainieren.

Das Papier stellt fest, dass die größte Herausforderung beim Training eines so großen LLM die erforderliche Speichermenge ist, die mindestens 14 Terabyte betrug. Dies bedeutete, dass mehrere MI250X-GPUs mit jeweils 64 GB VRAM verwendet werden mussten, was jedoch ein neues Problem mit sich brachte: Parallelität. Um einem LLM mehr GPUs zuzuweisen, ist eine immer bessere Kommunikation erforderlich, um tatsächlich mehr Ressourcen effektiv zu nutzen. Andernfalls würde der Großteil oder die gesamte zusätzliche GPU-Leistung verschwendet werden.

Das Forschungspapier befasst sich mit den Details, wie genau diese Computeringenieure es gemacht haben, aber die Kurzfassung besagt, dass sie auf Frameworks wie Megatron-DeepSpeed und FSDP iterierten und Dinge änderten, damit das Trainingsprogramm auf Frontier optimaler laufen würde. Am Ende waren die Ergebnisse ziemlich beeindruckend – die Effizienz der schwachen Skalierung lag bei 100 %, was im Grunde bedeutet, dass bei zunehmender Arbeitslastgröße mehr GPUs so effizient wie möglich genutzt wurden.

Unterdessen war die starke Skalierungseffizienz mit 89 % für das LLM mit 175 Milliarden Parametern und 87 % für das LLM mit einer Billion Parameter etwas niedriger. Unter starker Skalierung versteht man die Erhöhung der Prozessoranzahl, ohne dass sich die Größe der Arbeitslast ändert. Dies ist laut Amdahls Gesetz tendenziell der Fall, wenn eine höhere Kernanzahl weniger nützlich ist. Sogar 87 % sind ein ordentliches Ergebnis, wenn man bedenkt, wie viele GPUs sie verwendet haben.

Siehe auch ChatGPT erweitert „Benutzerdefinierte Anweisungen“ für kostenlose Benutzer

Das Team wies jedoch auf einige Probleme bei der Erreichung dieser Effizienz auf Frontier hin und erklärte: „Es muss noch mehr Arbeit in die Erforschung einer effizienten Trainingsleistung auf AMD-GPUs gesteckt werden, und die ROCm-Plattform ist spärlich.“ Wie es in dem Papier heißt, wird das meiste maschinelle Lernen in dieser Größenordnung innerhalb des CUDA-Hardware-Software-Ökosystems von Nvidia durchgeführt, wodurch die Lösungen von AMD und Intel im Vergleich unterentwickelt sind. Natürlich werden solche Bemühungen die Entwicklung dieser Ökosysteme fördern.

Der schnellste Supercomputer der Welt ist jedoch weiterhin Frontier mit seiner reinen AMD-Hardware. An zweiter Stelle steht Aurora mit seiner reinen Intel-Hardware inklusive GPUs, von der allerdings derzeit nur die Hälfte für Benchmark-Einreichungen genutzt wird. Nvidia-GPUs treiben den drittschnellsten Supercomputer Eagle an. Wenn AMD und Intel die Rangliste so halten wollen, müssen die beiden Unternehmen zu den Softwarelösungen von Nvidia aufschließen.

5/5 - (359 votes)

Frontier hat ein großes Sprachmodell in ChatGPT-Größe mit nur 3.000 seiner 37.888 Radeon-GPUs trainiert – der schnellste Supercomputer der Welt durchläuft ein Billion-Parameter-Modell mit nur 8 Prozent seiner MI250X-GPUs

Verifizierte Facebook-Konten, die Benutzer dazu verleiten, böswillige Links zu ChatGPT, Google AI, anzuklicken

Sam Altman findet ChatGPT auch „irgendwie scheiße“ und er sollte es wissen

Verwandte ArtikelMehr vom Autor

Das ChatGPT Hong Kong-Tutorial zeigt Ihnen Schritt für Schritt, wie Sie sich kostenlos registrieren, wie Sie es verwenden und wie Sie das Abonnement bezahlen

ChatGPT erklärte, was mit dem Hamster Kombat-Whitepaper nicht stimmt

Sparen Sie 80 % auf dieses AI Super Skills Bundle feat. ChatGPT, Leonardo, Midjourney und mehr

Verifizierte Facebook-Konten, die Benutzer dazu verleiten, böswillige Links zu ChatGPT, Google AI, anzuklicken

Sam Altman findet ChatGPT auch „irgendwie scheiße“ und er sollte es wissen

Verwandte Artikel Mehr vom Autor