Warum es wichtig ist: Erweiterte KI-Funktionen erfordern im Allgemeinen riesige, in der Cloud gehostete Modelle mit Milliarden oder sogar Billionen Parametern. Aber Microsoft stellt dies mit dem Phi-3 Mini in Frage, einem kleinen KI-Kraftpaket, das auf Ihrem Telefon oder Laptop ausgeführt werden kann und gleichzeitig eine Leistung bietet, die mit einigen der größten Sprachmodelle auf dem Markt mithalten kann.
Mit einem Gewicht von nur 3,8 Milliarden Parametern ist der Phi-3 Mini das erste von drei kompakten neuen KI-Modellen, die Microsoft in Arbeit hat. Es mag zwar klein sein, aber Microsoft behauptet, dass dieser kleine Überflieger weit über seine Gewichtsklasse hinaus schlagen kann und Reaktionen erzeugt, die denen eines zehnmal größeren Modells nahekommen.
Der Technologieriese plant, Mini später mit Phi-3 Small (7 Milliarden Parameter) und Phi-3 Medium (14 Milliarden) nachzuziehen. Aber selbst der Mini mit 3,8 Milliarden Parametern entwickelt sich den Zahlen von Microsoft zufolge zu einem wichtigen Player.
Diese Zahlen zeigen, dass sich Phi-3 Mini gegen Schwergewichte wie den über 175 Milliarden Parameter GPT-3.5, der das kostenlose chatgpt antreibt, sowie das Mixtral 8x7B-Modell des französischen KI-Unternehmens Mistral behaupten kann. Für ein Modell, das kompakt genug ist, um lokal ausgeführt zu werden, ohne dass eine Cloud-Verbindung erforderlich ist, ist das überhaupt nicht schlecht.
Wie genau wird die Größe bei KI-Sprachmodellen gemessen? Es kommt auf Parameter an – die numerischen Werte in einem neuronalen Netzwerk, die bestimmen, wie es Text verarbeitet und generiert. Mehr Parameter bedeuten im Allgemeinen ein besseres Verständnis Ihrer Abfragen, aber auch einen höheren Rechenaufwand. Dies ist jedoch nicht immer der Fall, wie OpenAI-CEO Sam Altman erklärte.
Während gigantische Modelle wie GPT-4 von OpenAI und Claude 3 Opus von Anthropic Gerüchten zufolge mehrere hundert Milliarden Parameter enthalten, erreicht der Phi-3 Mini maximal nur 3,8 Milliarden. Dennoch gelang es den Forschern von Microsoft, durch einen innovativen Ansatz zur Verfeinerung der Trainingsdaten selbst erstaunliche Ergebnisse zu erzielen.
Indem sie das relativ kleine Modell mit 3,8 Milliarden Parametern auf einen äußerst kuratierten Datensatz aus hochwertigen Webinhalten und synthetisch generiertem Material konzentrierten, das aus früheren Phi-Modellen entwickelt wurde, verliehen sie Phi-3 Mini für seine schlanke Statur übergroße Fähigkeiten. Es kann bis zu 4.000 Kontext-Tokens gleichzeitig verarbeiten, wobei auch eine spezielle 128-KByte-Token-Version verfügbar ist.
„Weil es sich um das Lesen von lehrbuchartigem Material handelt, von hochwertigen Dokumenten, die die Dinge sehr, sehr gut erklären, macht man die Aufgabe des Sprachmodells, dieses Material zu lesen und zu verstehen, viel einfacher“, erklärt Microsoft.
Die Auswirkungen könnten enorm sein. Wenn winzige KI-Modelle wie Phi-3 Mini wirklich eine Leistung erbringen können, die mit den heutigen Giganten mit mehr als einer Milliarde Parametern konkurrenzfähig ist, können wir möglicherweise die energiefressenden Cloud-KI-Farmen für alltägliche Aufgaben hinter uns lassen.
Microsoft hat das Modell bereits zur Verfügung gestellt, um es in der Azure-Cloud sowie über die Open-Source-KI-Modellhosts Hugging Face und Ollama auf Herz und Nieren zu testen.