Künstliche Intelligenz (KI) ist das Schlagwort des Jahres 2023 und Unternehmen unternehmen Anstrengungen, diese Technologie in ihre Produktpalette zu integrieren. Anfang des Jahres wurde berichtet, dass apple einen internen Dienst ähnlich wie chatgpt entwickelt hat, der Mitarbeitern hilft, neue Funktionen zu testen, Texte zusammenzufassen und Fragen basierend auf den gelernten Daten zu beantworten. Mark Gurman behauptete im Juli, dass Apple an einem eigenen KI-Modell arbeite. Das Herzstück dieser LLM-Arbeit (Large Language Model) ist ein neues Framework namens Ajax. Die ChatGPT-ähnliche App mit dem Spitznamen „Apple GPT“ ist nur eine der vielen Möglichkeiten, die das Ajax-Framework bieten kann. Nun deutet ein von Apple eingereichtes Forschungspapier darauf hin, dass Large Language Models (LLMs) möglicherweise auf Apple-Geräten wie iphone und iPad laufen!
LLMs auf dem iPhone
Die Forschung Papier (zuerst entdeckt von VentureBeat) trägt den Titel „LLM in a flash: Efficient Large Language Model Inference with Limited Memory“. Es bewältigt die größte Herausforderung, die die Ausführung von LLMs auf dem Gerät mit sich bringt, insbesondere bei Geräten mit begrenzter DRAM-Kapazität. Für Unwissende: LLMs enthalten Milliarden von Parametern. Daher stellt es eine Herausforderung dar, sie auf Geräten mit eingeschränktem DRAM laufen zu lassen. Um dieses Problem zu lösen, schlägt das Papier vor, dass LLMs auf dem Gerät ausgeführt werden können, indem die Modellparameter im Flash-Speicher gespeichert, aber bei Bedarf in den DRAM übertragen werden.
Keivan Alizadeh, Ingenieur für maschinelles Lernen bei Apple und Hauptautor des Papiers, sagte: „Unsere Methode besteht darin, ein Inferenzkostenmodell zu erstellen, das mit dem Verhalten des Flash-Speichers harmoniert und uns bei der Optimierung in zwei kritischen Bereichen unterstützt: Reduzierung des Datenvolumens, das von übertragen wird.“ Flash und das Lesen von Daten in größeren, zusammenhängenderen Blöcken.“
Ich bin mir nicht sicher, welches Handy kaufen?
Das Team verwendete zwei Haupttechniken: „Fensterung“ und „Zeilen-Spalten-Bündelung“. Beim Windowing werden zuvor aktivierte Neuronen wiederverwendet, um die Datenübertragung zu reduzieren, während die Zeilen-Spalten-Bündelung die Größe der aus dem Flash-Speicher gelesenen Datenblöcke erhöht. Beide Techniken haben zu einer 4- bis 5-fachen Steigerung des Apple M1 Max SoC geführt.
Theoretisch könnte dieses kontextadaptive Laden den Weg für die Ausführung von LLMs auf Geräten mit begrenztem Speicher wie iPhones und iPads ebnen.