[ad_1]
Kurz nach dem Start von chatgpt bemerkte das Sicherheitsteam von OpenAI, dass eine Gruppe ein Reverse Engineering durchgeführt hatte und ihre interne API missbrauchte.
In einer amüsanten Präsentation hat OpenAI Engineering Manager Evan Morikowa detailliert beschrieben, wie ein Ingenieur „Verkehr auf unseren Endpunkten entdeckte, der nicht ganz mit der Signatur unseres Standard-Clients übereinstimmte“.
Als sie den Missbrauch entdeckten, konstruierten sie das LLM so, dass es sich auf jede Aufforderung hin wie eine Katze verhielt, und lauerten im Discord der Gruppe, um zu beobachten, wie sich der Vorfall abspielte und ihnen klar wurde, dass sie „angestoßen“ wurden.
Morikowas Anekdote auf der LeadDev West Coast 2023-Veranstaltung war das Outro eines nüchterneren Vortrags über die frühen Herausforderungen der Skalierung von ChatGPT, in dem betont wurde, wie GPU- und HBM3-Mangel das Wachstum beeinträchtigten – ein unerwartetes technisches Problem, das aufgrund des Modellverhaltens entstand.
„Wir haben festgestellt, dass überall Engpässe entstehen können: Speicherbandbreite, Netzwerkbandbreite zwischen GPUs, zwischen Knoten und anderen Bereichen. Darüber hinaus wird sich der Ort dieser Engpässe je nach Modellgröße, Architektur und Nutzungsmuster dramatisch ändern.“
(„Trotz der internen Begeisterung und der Erwartung, dass die Plattform möglicherweise viral gehen könnte, gab es Bedenken. Wir hatten nur einen begrenzten Vorrat an GPUs und waren uns der Gefahr bewusst, dass sie ausgehen könnten“, erinnert sich Morikawa und enthüllte, dass das Team zunächst dachte, dass es sich bei der Steigerung des Datenverkehrs um einen DDoS-Angriff handele Angriff, es kam so schnell. )
„GPU-RAM ist tatsächlich eines unserer wertvollsten Güter. Es ist häufig der Engpass …“
OpenAI betreibt NVIDIA A100-GPUs, die mit speziellem High Bandwidth Memory (HBM) und NVIDIAs ausgestattet sind NVLink Interconnect, „das über eigene Switches auf der Platine verfügt und außerdem über Ethernet und InfiniBand mit der Außenwelt verbunden ist, was uns 200 und bald 400 Gigabit Netzwerk für jede einzelne dieser Karten bieten kann“, sagte er.
Doch OpenAI erkannte schnell, dass die Skalierung des Unternehmens einzigartige architektonische Herausforderungen mit sich brachte, die weder das Unternehmen noch seine GPU-Entwickler erwartet hatten.
Insbesondere Caching (KV-Cache) Die „Mathematik“, die ChatGPT durchgeführt hat – um Ihre Anfrage in Token und dann in einen Zahlenvektor umzuwandeln, diesen mit „Hunderten von Milliarden Modellgewichten“ zu multiplizieren und dann „Ihre Konferenzrede“ zu generieren – stellt große Anforderungen an den Speicher in seinen Daten Zentren; wertvoller und teurer Speicher, der optimiert werden musste, um größere Leistungsprobleme für Kunden zu vermeiden.
Tatsächlich sei es für OpenAI eine ständige Herausforderung, das Beste aus seinen Ressourcen herauszuholen, betonte er. und ein komplexes, sich ständig weiterentwickelndes Problem, da Modellgröße und Nutzungsmuster dramatisch variieren, wie und wo die Infrastruktur belastet wird.
„Sie müssen diesen Cache in der GPU in diesem ganz besonderen HBM3-Speicher speichern; Denn das Schieben von Daten über einen PCIe-Bus ist tatsächlich zwei Größenordnungen langsamer als die 3 TB pro Sekunde, die ich von diesem Speicher erhalte … das ist es [HBM3] „So schnell, weil es physisch mit den GPUs verbunden und in Schichten mit Tausenden von Pins gestapelt ist, um einen massiv parallelen Datendurchsatz zu gewährleisten“, erklärte er – aber es ist auch teuer, begrenzt und der größte Teil davon wird für die Speicherung von Modellgewichten aufgewendet.
„Also wie bei jedem Cache verfallen wir, sobald dieser voll ist, der älteste zuerst. Wenn wir einen Cache-Fehler haben, müssen wir Ihre gesamte Chat-GPT-Konversation erneut berechnen. Da wir den GPU-RAM für alle verschiedenen Benutzer gemeinsam nutzen, ist es möglich, dass Ihre Konversation dies kann.“ werden entfernt, wenn es zu lange im Leerlauf bleibt. Das hat mehrere Auswirkungen. Zum einen ist GPU-RAM tatsächlich eines unserer wertvollsten Güter. Es ist häufig der Engpass, nicht unbedingt die Rechenleistung. Und zweitens haben Cache-Fehler diese seltsame, massive Nichtlinearität Auswirkungen darauf, wie viel Arbeit die GPUs leisten, weil wir plötzlich anfangen müssen, all diese Dinge neu zu berechnen. Und das bedeutet, dass es bei der Skalierung von Chat GPT keine einfache CPU-Auslastungsmetrik zu beachten gab. Wir mussten uns diese KV-Cache-Auslastung ansehen und den gesamten GPU-RAM maximieren, den wir hatten“, überlegte er – und betonte, dass die Aufforderung an ChatGPT, einen Aufsatz zusammenzufassen, ganz andere Leistungsmerkmale hat als die Aufforderung, einen Aufsatz zu schreiben.
Für LLMs und Chiphersteller ist es schwierig, „die richtige Balance zu finden“
„Die Variabilität hier hat es für uns und die Chiphersteller tatsächlich sehr schwierig gemacht, Chips so zu entwickeln, dass dieses Gleichgewicht genau richtig ist.“
Morikowa fügte hinzu: „Während der H100 der nächsten Generation beispielsweise die Anzahl der Flops für die Berechnung um das Sechsfache gegenüber dem A100 erhöhte, erhöhte sich die Speicherbandbreite nur um das Zweifache. Wir und andere große Sprachmodellunternehmen entdecken, wie einfach wir den Speicher begrenzen können, was die Kapazität begrenzt.“ Wert dieser neuen GPUs. Nvidia hatte irgendwie keine Möglichkeit, dies selbst zu wissen, da die H100-Designs vor Jahren festgelegt wurden und zukünftige ML-Architekturen und -Größen für uns und jeden anderen sehr schwer vorherzusagen waren.
„Bei der Lösung all dieser GPU-Herausforderungen haben wir mehrere wichtige Lektionen gelernt. Erstens, wie wichtig es ist, dies als systemtechnische Herausforderung und nicht als reines Forschungsprojekt zu behandeln. Zweitens, wie wichtig es ist, die Einschränkungen adaptiv zu berücksichtigen.“ dieser Systeme. Und drittens war es für uns wichtig, wirklich tief einzutauchen. Je mehr Menschen tief in die Details des Systems eintauchen, desto besser werden wir“, schloss er.
[ad_2]