Microsoft heute behauptet dass es „die leistungsfähigsten und kostengünstigsten verfügbaren Small Language Models (SLMs)“ herausgebracht hat, sagte er Phi-3– die dritte Iteration seiner Phi-Familie von Small Language Models (SLMs) – übertrifft Modelle vergleichbarer Größe und einige größere.

Ein Small Language Model (SLM) ist eine Art KI-Modell, das darauf ausgelegt ist, bestimmte sprachbezogene Aufgaben äußerst effizient auszuführen. Im Gegensatz zu Large Language Models (LLMs), die sich gut für eine Vielzahl generischer Aufgaben eignen, basieren SLMs auf einem kleineren Datensatz, um sie für bestimmte Anwendungsfälle effizienter und kostengünstiger zu machen.

Phi-3 gibt es in verschiedenen Versionen, erklärte Microsoft, wobei die kleinste Phi-3 Mini ist, ein 3,8 Milliarden Parametermodell, das auf 3,3 Billionen Token trainiert wird. Trotz seiner vergleichsweise geringen Größe wiegt der Körper von Llama-3 über 15 Billionen Daten-Tokens – Phi-3 Mini ist immer noch in der Lage, 128.000 Kontext-Tokens zu verarbeiten. Damit ist es mit GPT-4 vergleichbar und übertrifft Llama-3 und Mistral Large in Bezug auf die Token-Kapazität.

Mit anderen Worten: KI-Giganten wie Llama-3 auf Meta.ai und Mistral Large könnten nach einem langen Gespräch oder einer Aufforderung zusammenbrechen, lange bevor dieses leichte Modell zu kämpfen beginnt.

Einer der größten Vorteile des Phi-3 Mini ist seine Fähigkeit, auf ein typisches Smartphone zu passen und darauf zu laufen. Microsoft hat das Modell auf einem iphone 14 getestet und es lief ohne Probleme und generierte 14 Token pro Sekunde. Für den Betrieb von Phi-3 Mini sind nur 1,8 GB VRAM erforderlich, was es zu einer leichten und effizienten Alternative für Benutzer mit spezifischeren Anforderungen macht.

Siehe auch  Um seinen Mandanten zu verteidigen, beruft sich ein Anwalt auf Scheinprozesse, die von ChatGPT erfunden wurden

Während Phi-3 Mini möglicherweise nicht so gut für High-End-Programmierer oder Personen mit breiten Anforderungen geeignet ist, kann es eine effektive Alternative für Benutzer mit spezifischen Anforderungen sein. Beispielsweise können Startups, die einen Chatbot benötigen, oder Personen, die LLMs für die Datenanalyse nutzen, Phi-3 Mini für Aufgaben wie Datenorganisation, Informationsextraktion, mathematisches Denken und Erstellen von Agenten verwenden. Wenn das Modell Zugang zum Internet erhält, kann es ziemlich leistungsfähig werden und seine mangelnden Fähigkeiten durch Echtzeitinformationen ausgleichen.

Phi-3 Mini erzielt hohe Testergebnisse, da Microsoft sich darauf konzentriert, seinen Datensatz mit möglichst nützlichen Informationen zu kuratieren. Tatsächlich eignet sich die breitere Phi-Familie nicht für Aufgaben, die Faktenwissen erfordern, aber ihr hohes Denkvermögen hebt sie von den Hauptkonkurrenten ab. Phi-3 Medium (ein 14-Milliarden-Parameter-Modell) übertrifft durchweg leistungsstarke LLMs wie GPT-3.5 – das LLM, das die kostenlose Version von chatgpt antreibt – und die Mini-Version schlägt leistungsstarke Modelle wie Mixtral-8x7B in den meisten synthetischen Benchmarks.

Es ist jedoch erwähnenswert, dass Phi-3 nicht wie sein Vorgänger Phi-2 Open Source ist. Stattdessen ist es ein offenes Modellwas bedeutet, dass es zugänglich und zur Nutzung verfügbar ist, aber nicht über die gleiche Open-Source-Lizenzierung wie Phi-2 verfügt, was eine breitere Nutzung und kommerzielle Anwendungen ermöglicht.

In den kommenden Wochen kündigte Microsoft an, weitere Modelle der Phi-3-Familie herauszubringen, darunter den Phi-3 Small (7 Milliarden Parameter) und den bereits erwähnten Phi-3 Medium.

Microsoft hat Phi-3 Mini auf Azure AI Studio, Hugging Face und Ollama verfügbar gemacht. Das Modell ist anweisungsorientiert und für ONNX Runtime optimiert und unterstützt Windows DirectML sowie plattformübergreifende Unterstützung für verschiedene GPUs, CPUs und sogar mobile Hardware.

Siehe auch  Marketingstrategie für ein Bildungsprogramm unter Verwendung des neuronalen Netzwerks ChatGPT
5/5 - (384 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein