Warum es wichtig ist: Erweiterte KI-Funktionen erfordern im Allgemeinen riesige, in der Cloud gehostete Modelle mit Milliarden oder sogar Billionen Parametern. Aber Microsoft stellt dies mit dem Phi-3 Mini in Frage, einem kleinen KI-Kraftpaket, das auf Ihrem Telefon oder Laptop ausgeführt werden kann und gleichzeitig eine Leistung bietet, die mit einigen der größten Sprachmodelle auf dem Markt mithalten kann.

Mit einem Gewicht von nur 3,8 Milliarden Parametern ist der Phi-3 Mini das erste von drei kompakten neuen KI-Modellen, die Microsoft in Arbeit hat. Es mag zwar klein sein, aber Microsoft behauptet, dass dieser kleine Überflieger weit über seine Gewichtsklasse hinaus schlagen kann und Reaktionen erzeugt, die denen eines zehnmal größeren Modells nahekommen.

Der Technologieriese plant, Mini später mit Phi-3 Small (7 Milliarden Parameter) und Phi-3 Medium (14 Milliarden) nachzuziehen. Aber selbst der Mini mit 3,8 Milliarden Parametern entwickelt sich den Zahlen von Microsoft zufolge zu einem wichtigen Player.

Diese Zahlen zeigen, dass sich Phi-3 Mini gegen Schwergewichte wie den über 175 Milliarden Parameter GPT-3.5, der das kostenlose chatgpt antreibt, sowie das Mixtral 8x7B-Modell des französischen KI-Unternehmens Mistral behaupten kann. Für ein Modell, das kompakt genug ist, um lokal ausgeführt zu werden, ohne dass eine Cloud-Verbindung erforderlich ist, ist das überhaupt nicht schlecht.

Wie genau wird die Größe bei KI-Sprachmodellen gemessen? Es kommt auf Parameter an – die numerischen Werte in einem neuronalen Netzwerk, die bestimmen, wie es Text verarbeitet und generiert. Mehr Parameter bedeuten im Allgemeinen ein besseres Verständnis Ihrer Abfragen, aber auch einen höheren Rechenaufwand. Dies ist jedoch nicht immer der Fall, wie OpenAI-CEO Sam Altman erklärte.

Siehe auch  ChatGPT gibt Urteil darüber ab, ob XRP im Jahr 2024 besser abschneiden wird als Ethereum

Während gigantische Modelle wie GPT-4 von OpenAI und Claude 3 Opus von Anthropic Gerüchten zufolge mehrere hundert Milliarden Parameter enthalten, erreicht der Phi-3 Mini maximal nur 3,8 Milliarden. Dennoch gelang es den Forschern von Microsoft, durch einen innovativen Ansatz zur Verfeinerung der Trainingsdaten selbst erstaunliche Ergebnisse zu erzielen.

Indem sie das relativ kleine Modell mit 3,8 Milliarden Parametern auf einen äußerst kuratierten Datensatz aus hochwertigen Webinhalten und synthetisch generiertem Material konzentrierten, das aus früheren Phi-Modellen entwickelt wurde, verliehen sie Phi-3 Mini für seine schlanke Statur übergroße Fähigkeiten. Es kann bis zu 4.000 Kontext-Tokens gleichzeitig verarbeiten, wobei auch eine spezielle 128-KByte-Token-Version verfügbar ist.

„Weil es sich um das Lesen von lehrbuchartigem Material handelt, von hochwertigen Dokumenten, die die Dinge sehr, sehr gut erklären, macht man die Aufgabe des Sprachmodells, dieses Material zu lesen und zu verstehen, viel einfacher“, erklärt Microsoft.

Die Auswirkungen könnten enorm sein. Wenn winzige KI-Modelle wie Phi-3 Mini wirklich eine Leistung erbringen können, die mit den heutigen Giganten mit mehr als einer Milliarde Parametern konkurrenzfähig ist, können wir möglicherweise die energiefressenden Cloud-KI-Farmen für alltägliche Aufgaben hinter uns lassen.

Microsoft hat das Modell bereits zur Verfügung gestellt, um es in der Azure-Cloud sowie über die Open-Source-KI-Modellhosts Hugging Face und Ollama auf Herz und Nieren zu testen.

5/5 - (124 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein