Das chinesische KI-Startup DeepSeek AI hat mit der Einführung der DeepSeek LLM-Familie eine neue Ära bei großen Sprachmodellen (LLMs) eingeläutet. Bestehend aus der DeepSeek LLM 7B/67B Base und DeepSeek LLM 7B/67B Chat – diese Open-Source-Modelle stellen einen bemerkenswerten Fortschritt im Sprachverständnis und in der vielseitigen Anwendung dar.
Eines der herausragenden Merkmale der LLMs von DeepSeek ist die außergewöhnliche Leistung der 67B Base-Version im Vergleich zur Llama2 70B Base, die überlegene Fähigkeiten in Argumentation, Codierung, Mathematik und Chinesischverständnis zeigt.
Dieser qualitative Sprung in den Fähigkeiten von DeepSeek LLMs zeigt ihre Kompetenz in einem breiten Anwendungsspektrum. Besonders hervorzuheben ist die Leistung von DeepSeek-Chat, das beim HumanEval-Coding-Benchmark eine beeindruckende Erfolgsquote von 73,78 % erzielte und damit Modelle ähnlicher Größe übertraf. Es zeigte eine bemerkenswerte Leistungsfähigkeit, indem es im GSM8K-Mathematikdatensatz ohne Feinabstimmung 84,1 % erreichte.
Die Entscheidung von DeepSeek AI, sowohl die 7-Milliarden- als auch die 67-Milliarden-Parameterversionen seiner Modelle, einschließlich Basis- und Spezial-Chat-Varianten, als Open Source bereitzustellen, zielt darauf ab, eine umfassende KI-Forschung und kommerzielle Anwendungen zu fördern.
Um eine unvoreingenommene und gründliche Leistungsbeurteilung zu gewährleisten, hat DeepSeek AI neue Aufgabensätze entwickelt, wie z. B. die Ungarische Nationalprüfung für weiterführende Schulen und die Anweisungen von google im Anschluss an den Bewertungsdatensatz. Diese Bewertungen verdeutlichten wirkungsvoll die außergewöhnlichen Fähigkeiten des Modells bei der Bewältigung bisher unbekannter Prüfungen und Aufgaben.
Das Startup gab Einblicke in seinen sorgfältigen Datenerfassungs- und Schulungsprozess, der sich auf die Förderung von Vielfalt und Originalität bei gleichzeitiger Wahrung der Rechte an geistigem Eigentum konzentrierte. Die mehrstufige Pipeline umfasste die Kuratierung hochwertiger Texte, mathematischer Formulierungen, Codes, literarischer Werke und verschiedener Datentypen sowie die Implementierung von Filtern zur Beseitigung von Toxizität und doppelten Inhalten.
Die Sprachmodelle von DeepSeek, die mit LLaMA-ähnlichen Architekturen entwickelt wurden, wurden einem strengen Vortraining unterzogen. Das 7B-Modell nutzte Multi-Head-Aufmerksamkeit, während das 67B-Modell Grouped-Query-Aufmerksamkeit nutzte. Das Trainingsprogramm umfasste große Gruppengrößen und einen mehrstufigen Lernratenplan, um robuste und effiziente Lernfähigkeiten sicherzustellen.
Durch die Vorreiterrolle bei der Veröffentlichung dieser hochmodernen Open-Source-LLMs hat DeepSeek AI einen entscheidenden Meilenstein im Sprachverständnis und der KI-Zugänglichkeit gesetzt und Innovationen und breitere Anwendungen in diesem Bereich gefördert.
Niharika ist Praktikantin im Bereich technische Beratung bei Marktechpost. Sie studiert im dritten Jahr und macht derzeit ihren B.Tech am Indian Institute of Technology (IIT) in Kharagpur. Sie ist eine äußerst enthusiastische Person mit großem Interesse an maschinellem Lernen, Datenwissenschaft und KI und eine begeisterte Leserin der neuesten Entwicklungen in diesen Bereichen.