Der begehrte Innovationspreis auf der bevorstehenden Consumer Electronics Show (CES) 2024 im Januar wurde von einem koreanischen Startup für seinen KI-Beschleuniger gewonnen.
Panmnesia hat sein KI-Beschleunigergerät auf der Compute Express Link (CXL) 3.0-Technologie aufgebaut, die die gemeinsame Nutzung eines externen Speicherpools mit Host-Computern und Komponenten wie der CPU ermöglicht, was zu einer nahezu unbegrenzten Speicherkapazität führen kann. Dies ist der Integration eines CXL 3.0-Controllers in den Beschleunigerchip zu verdanken.
CXL wird zum Verbinden von Systemgeräten verwendet – einschließlich Beschleunigern, Speichererweiterungen, Prozessoren und Switches. Durch die Verbindung mehrerer Beschleuniger und Speichererweiterungen mithilfe von CXL-Switches kann die Technologie einem intensiven System genügend Speicher für KI-Anwendungen bereitstellen.
Was CXL 3.0 für LLMs bedeutet
Die Verwendung von CXL 2.0 in Geräten wie diesem würde bestimmten Hosts den Zugriff auf ihren dedizierten Teil des gepoolten externen Speichers ermöglichen, während die neueste Generation Hosts ermöglicht, bei Bedarf auf den gesamten Pool zuzugreifen.
„Wir glauben, dass unsere CXL-Technologie ein Eckpfeiler für das KI-Beschleunigungssystem der nächsten Generation sein wird“, sagte Panmesia-Gründer und CEO Myoungsoo Jung in einem Stellungnahme.
„Wir bleiben unserem Bestreben treu, nicht nur das KI-Beschleunigungssystem, sondern auch andere Allzweckumgebungen wie Rechenzentren, Cloud Computing und Hochleistungsrechnen zu revolutionieren.“
Die Technologie von Panmnesia ähnelt der Art und Weise, wie Servercluster externe SSDs zum Speichern von Daten gemeinsam nutzen können, und wäre besonders nützlich für Server, da diese häufig auf mehr Daten zugreifen müssen, als sie im integrierten Speicher speichern können.
Dieses Gerät wurde speziell für groß angelegte KI-Anwendungen entwickelt – und seine Entwickler behaupten, dass es bei der Durchführung KI-basierter Suchfunktionen 101-mal schneller ist als herkömmliche Dienste, die SSDs zum Speichern von über Netzwerke verbundenen Daten verwenden. Die Architektur minimiert außerdem die Energiekosten und den Betriebsaufwand.
Wenn es in der Konfiguration von Servern verwendet wird, die OpenAI zum Hosten seiner großen Sprachmodelle (LLMs) wie chatgpt zusammen mit Hardware anderer Anbieter verwendet, könnte es die Leistung dieser Modelle drastisch verbessern.