Sind Sie bereit, Ihrer Marke mehr Bekanntheit zu verleihen? Erwägen Sie, Sponsor der AI Impact Tour zu werden. Erfahren Sie mehr über die Möglichkeiten google.com/forms/d/e/1FAIpQLSc4XmgDYjIsCfJwjCkYaWEumoDJB13uSrLhraw9mB24U7jyxg/viewform“ data-type=“link“ data-id=“https://docs.google.com/forms/d/e/1FAIpQLSc4XmgDYjIsCfJwjCkYaWEumoDJB13uSrLhraw9mB24U7jyxg/viewform“>Hier.


Während chatgpt diese Woche seinen ersten Geburtstag feiert, feiert das chinesische Startup DeepSeek KI ist dabei, seine Dominanz mit seinem eigenen Konversations-KI-Angebot anzunehmen: DeepSeek Chat.

Der Assistent wurde im Rahmen eines Alpha-Tests gestartet und greift auf DeepSeek-LLMs mit 7B- und 67B-Parametern zu, die auf einem Datensatz von 2 Billionen Token in Englisch und Chinesisch trainiert wurden. Laut Benchmarks liefern beide Modelle eine starke Leistung in einer Reihe von Auswertungen, einschließlich Codierung und Mathematik, und erreichen (manchmal sogar übertreffen) Metas berühmtes Llama 2-70B.

Die Nachricht markiert den Einstieg eines weiteren chinesischen Spielers in das KI-Rennen, nach den jüngsten Veröffentlichungen von Qwen, 01.AI und Baidu. DeepSeek sagte, es habe die Modelle – sowohl die Basisversion als auch die auf Anweisungen abgestimmte Version – als Open-Source-Modell bereitgestellt, um die weitere Forschung sowohl in der akademischen als auch in der kommerziellen Gemeinschaft zu fördern.

Das Unternehmen, das vor einigen Monaten gegründet wurde, um neugierig das Geheimnis von AGI zu lüften, erlaubt unter bestimmten Bedingungen auch die kommerzielle Nutzung.

VB-Ereignis

Die AI Impact Tour

Treten Sie mit der Unternehmens-KI-Community auf der AI Impact Tour von VentureBeat in eine Stadt in Ihrer Nähe in Kontakt!

Erfahren Sie mehr

Was wissen wir über DeepSeek Chat und LLMs?

Der DeepSeek-Chat ist über a zugänglich Web-Interface (wie ChatGPT), wo sich Benutzer anmelden und für eine Reihe von Aufgaben mit dem Modell interagieren können. Über diese Schnittstelle ist nur die 67B-Version verfügbar.

Siehe auch  So konvertieren Sie GIF mit ChatGPT in MP4

Nach Angaben des Unternehmens wurden beide Modelle mit der gleichen autoregressiven Transformator-Decoder-Architektur wie Llama gebaut, ihr Inferenzansatz ist jedoch unterschiedlich. Das kleinere Modell nutzt Multi-Head-Aufmerksamkeit (MHA), die mehrere Male parallel einen Aufmerksamkeitsmechanismus durchläuft, während das größere Modell die Gruppenabfrage-Aufmerksamkeit (GQA) nutzt, um Ergebnisse zu erzielen.

„Das Training des 7B-Modells umfasste eine Batch-Größe von 2304 und eine Lernrate von 4,2e-4 und das 67B-Modell wurde mit einer Batch-Größe von 4608 und einer Lernrate von 3,2e-4 trainiert.“ Wir verwenden in unserem Schulungsprozess einen mehrstufigen Lernratenplan. „Die Lernrate beginnt mit 2000 Aufwärmschritten und wird dann auf 31,6 % des Maximums bei 1,6 Billionen Token und 10 % des Maximums bei 1,8 Billionen Token erhöht“, heißt es in der Erklärung der Modelle. Github-Seite.

Im Test zeigte DeepSeek LLM 67B Base überlegene allgemeine Fähigkeiten und übertraf Llama2 70B Base in Bereichen wie Argumentation, Codierung, Mathematik und Chinesischverständnis. Tatsächlich war der einzige Benchmark, bei dem Llama etwas besser abschnitt, die 5-Schuss-Trivia-QA (79,5 vs. 78,9).

Die Chat-Version des Modells, die anhand zusätzlicher Befehlsdaten verfeinert wurde, schnitt auch bei noch nie dagewesenen Tests außergewöhnlich gut ab.

Beim HumanEval pass@1 für Codierung erreichte es beispielsweise 73,78 Punkte, während es beim GSM8K 0-Shot für Mathematik 84,1 Punkte erzielte und damit direkt hinter GPT-4 und Claude 2 von Anthropic lag.

Trotz der beeindruckenden Leistung in den Benchmarks scheint das DeepSeek-Modell jedoch unter einem gewissen Maß an Zensur zu leiden. In einem Beitrag auf X wies ein Benutzer darauf hin, dass die Antworten des Assistenten automatisch geschwärzt wurden, wenn es sich bei der ursprünglichen Frage um China handelte. Stattdessen zeigte das Modell eine Meldung an, dass der Inhalt aus Sicherheitsgründen „zurückgezogen“ wurde. Es ist nicht sofort klar, ob das Basismodell auch solche Filter enthält.

Siehe auch  Die Wachstumsschmerzen der KI: Professor untersucht, wie sich Tools wie ChatGPT auf Kinder auswirken

LLMs aller Größen

Die Einführung von DeepSeek LLMs stellt einen weiteren bemerkenswerten Schritt Chinas im KI-Bereich dar und erweitert das Angebot des Landes, um alle gängigen Modellgrößen abzudecken und so ein breites Spektrum von Endbenutzern zu bedienen.

Zu den in den letzten Monaten angekündigten Allzweck-KI-Angeboten gehören Baidus Ernie 4.0, 01.AIs Yi 34B und Qwens Modelle 1.8B, 7B, 14B und 72B.

Interessanter ist, dass die Leistung einiger dieser Modelle sogar besser war als die ihrer größeren Gegenstücke, darunter Yi 34B.

Wenn ein kleines Modell einem größeren Modell gleichkommt oder es übertrifft, wie etwa Yi 34B gegen Llama-2-70B und Falcon-180B, können Unternehmen erhebliche Effizienzsteigerungen erzielen. Sie können Rechenressourcen einsparen und gleichzeitig nachgelagerte Anwendungsfälle mit der gleichen Effektivität ansprechen.

Erst vor einer Woche teilte Microsoft seine Arbeit in diesem Bereich mit der Veröffentlichung von Orca-2-Modellen mit, die besser abschnitten als fünf- bis zehnmal größere Modelle, darunter Llama-2Chat-70B.

Die Mission von VentureBeat soll ein digitaler Stadtplatz für technische Entscheidungsträger sein, um sich Wissen über transformative Unternehmenstechnologie anzueignen und Transaktionen durchzuführen. Entdecken Sie unsere Briefings.

5/5 - (487 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein