chatgpt und andere großartige Sprachmodelle lernen, Menschen zu imitieren, indem sie riesige Datenmengen analysieren. Hinter dem Textfeld eines Chatbots verbirgt sich ein riesiges Netzwerk von Computerverarbeitungseinheiten, die das Training und die Ausführung dieser Modelle unterstützen.
Wie hoch ist der Stromverbrauch von Netzwerken, die große Sprachmodelle verwenden? Laut Sajjad Moazeni, Assistenzprofessor für Elektro- und Computertechnik an der Universität, ist das eine MengeUniversität von Washington, das Netzwerke für KI- und maschinelle Lern-Supercomputer untersucht. Allein das Training eines Chatbots kann in einem Jahr so viel Strom verbrauchen wie eine Nachbarschaft.
Wie schneiden große Sprachmodelle wie ChatGPT hinsichtlich des Energieverbrauchs im Vergleich zu Cloud Computing ab?
Sajjad Moazeni : Diese Modelle sind so groß geworden, dass Tausende von Prozessoren erforderlich sind, um die Modelle zu trainieren und auf die Milliarden täglicher Benutzeranfragen zu reagieren. Alle diese Berechnungen können nur in einem Rechenzentrum durchgeführt werden.
Im Vergleich dazu sind typische Cloud-Computing-Arbeitslasten wie Onlinedienste, Datenbanken und Videostreaming viel weniger rechenintensiv und erfordern um Größenordnungen weniger Rechenleistung. Speichernutzung.
Können Sie diese Rechenzentren beschreiben?
SM : In heutigen Rechenzentren gibt es Hunderttausende Verarbeitungseinheiten, die über eine große Anzahl von Glasfasern und Netzwerk-Switches miteinander kommunizieren können. Diese Prozessoren (zusätzlich zu Arbeitsspeicher und Speichergeräten) werden in Server-Racks gelagert. Außerdem gibt es eine interne Infrastruktur zur Kühlung der Server (mit Wasser und Luft) und Einheiten zur Erzeugung und Verteilung der Energie.
Es gibt Hunderte solcher Rechenzentren auf der ganzen Welt und sie werden größtenteils von großen Technologieunternehmen wie Amazon, Microsoft und google betrieben.
Wie viel Strom verbrauchen diese großen Rechenzentren, um diese großen Sprachmodelle auszuführen?
SM : Für das Training eines großen Sprachmodells kann jede Verarbeitungseinheit im Betrieb über 400 Watt Leistung verbrauchen. Generell gilt, dass auch für die Kühlung und das Energiemanagement eine ähnliche Energiemenge aufgewendet werden muss. Insgesamt kann der Stromverbrauch für das Training eines einzelnen großen Sprachmodells wie ChatGPT-3 bis zu 10 Gigawattstunden (GWh) betragen.
Heutzutage gibt es täglich Hunderte Millionen ChatGPT-Anfragen, obwohl diese Zahl zurückgeht. Diese Anzahl an Anfragen kann etwa 1 GWh pro Tag kostenwas dem täglichen Energieverbrauch von etwa 1.000 US-Haushalten entspricht.
Während diese Zahlen vorerst korrekt erscheinen mögen, ist dies erst der Anfang einer groß angelegten Entwicklung und Einführung dieser Modelle. Wir gehen davon aus, dass bald viele verschiedene Dienste diese Technologie täglich nutzen werden.
Je ausgefeilter die Modelle werden, desto größer werden sie außerdem, was bedeutet, dass der Energieverbrauch des Rechenzentrums für das Training und die Verwendung dieser Modelle nicht mehr nachhaltig sein kann. Jedes große Technologieunternehmen versucht derzeit, ein eigenes Modell zu entwickeln, was zu einem enormen Schulungsaufwand für Rechenzentren führen kann.
Welche möglichen Lösungen gibt es für dieses Problem?
SM : Forscher haben versucht, die Hardware und Prozessoren von Rechenzentren zu optimieren, um sie für diese Art von Berechnungen energieeffizienter zu machen.
Meine Gruppe konzentriert sich insbesondere auf den Netzwerkaspekt. In heutigen Rechenzentren senden Prozessoren elektrische Signale, um zu berechnende Daten ein- oder auszugeben. Diese elektrischen Signale können jedoch verfälscht werden. Um große Datenmengen schnell zu versenden, müssen wir viel Energie aufwenden, um sicherzustellen, dass die Signale korrekt empfangen werden.
Wir entwickeln die nächste Generation optischer Verbindungslösungen, einschließlich der Umwandlung dieser elektrischen Signale in optische Signale. Diese optischen Signale haben viel geringere Verluste, was den Stromverbrauch minimiert.
Da wir uns erst im Anfangsstadium dieser neuen Technologie befinden, ist es sehr wichtig, dass die Menschen ihre Ergebnisse transparent machen und Open-Source-Modelle erstellen. Es wird uns auch dabei helfen, fortschrittliche und nachhaltige Lösungen zu finden.
[ Traduction Enerzine ]