Anthropic, ein führender Anbieter im KI-Bereich, hat gerade seine neueste Innovation vorgestellt: Claude 3.5 Sonnet. Dies ist die erste Version der mit Spannung erwarteten Claude 3.5-Reihe. Anthropic behauptet, dieses neue Modell übertreffe bekannte Konkurrenten wie OpenAIs GPT-4o und Googles Gemini-1.5 Pro.
Wir erläutern, wie gut das neue KI-Modell in Benchmarktests abgeschnitten hat. Außerdem gehen wir der Frage nach, ob die Testergebnisse als verlässlicher Indikator für die praktische Nutzbarkeit gelten.
Über Claude 3.5 Sonett
Es handelt sich um ein großes Sprachmodell (LLM), das von Anthropic entwickelt wurde und Teil der Familie der generativen vortrainierten Transformatoren ist. Diese Modelle zeichnen sich durch die Vorhersage des nächsten Wortes in einer Sequenz aus, die auf umfangreichem Vortraining mit großen Textmengen basiert. Claude 3.5 Sonnet baut auf den Grundlagen von Claude 3 Sonnet auf, das im März dieses Jahres sein Debüt feierte.
Claude 3.5 Sonnet bietet eine deutliche Leistungssteigerung und arbeitet doppelt so schnell wie sein Vorgänger Claude 3 Opus. Dieser Sprung, gepaart mit einem budgetfreundlicheren Preismodell, positioniert Claude 3.5 Sonnet laut der offiziellen Erklärung von Anthropic als die Lösung der Wahl für komplizierte Aufgaben, einschließlich kontextbezogenem Kundensupport und der Verwaltung mehrstufiger Arbeitsabläufe.
chatgpt-4o-vs-gemini-15-pro“>Claude 3.5 Sonett vs. ChatGPT-4o vs. Gemini 1.5 Pro
Anthropic hat in einem Beitrag auf der Social-Media-Plattform X die Ergebnisse von Claude 3.5 Sonnet (im Vergleich zu denen anderer Hersteller) bei Benchmarktests bekannt gegeben.
Beachten Sie, dass hier Konzepte wie „0-Shot“, „5-Shot“ und Gedankenkette (CoT) verwendet werden. Einfach ausgedrückt bezieht sich dies darauf, wie viele Berechnungs- oder Deduktionszyklen das Modell durchlaufen hat, um zur Antwort zu gelangen.
Hier erfahren Sie, was jeder der Tests misst, und sehen, wie die drei KIs im Vergleich abgeschnitten haben.
Argumentation auf Hochschulniveau GQPA (Fragen und Antworten zur Physik auf Graduiertenniveau): Dieser Benchmark bewertet die Fähigkeit einer KI, komplexe physikalische Fragen auf Hochschulniveau zu beantworten, und testet ihre fortgeschrittenen Denk- und Problemlösungsfähigkeiten im Bereich der Physik. Der Test wurde von Rein et al. in einem Artikel mit dem Titel „GPQA: A Graduate-Level google-Proof Q&A Benchmark“ vorgestellt.
Diamant: Dieser Benchmark bewertet das hochrangige Denken einer KI in einer Reihe von Themenbereichen, die akademische, berufliche, gesunde und allgemeine Wissensbereiche umfassen. Er beurteilt die Fähigkeit des Modells, komplizierte Probleme zu verstehen und zu lösen, die fundiertes Wissen und kritisches Denken erfordern.
-
Claude 3.5 Sonett: 59,4 % (0-Schuss-CoT)
-
GPT-4o: 53,6 % (0-Schuss-CoT)
-
Gemini 1.5 Pro: Nicht verfügbar
Kenntnisse auf Bachelor-Niveau MMLU (Massive Multitask Language Understanding): Dieser Benchmark bewertet das Verständnis eines Modells in einem breiten Spektrum von Fächern auf Bachelor-Niveau, die die Geisteswissenschaften, Naturwissenschaften und Sozialwissenschaften umfassen. Er misst die Breite des Wissens des Modells und seine Fähigkeit, mit unterschiedlichen Themen umzugehen. Der Test wurde von Hendrycks et al. in einem Artikel mit dem Titel „Measuring Massive Multitask Language Understanding“ vorgestellt.
-
Claude 3.5 Sonett: 88,7 % (5 Schuss), 88,3 % (0 Schuss CoT)
-
GPT-4o: 88,7 % (0-Schuss-CoT)
-
Gemini 1.5 Pro: 85,9 % (5 Schuss)
Code Menschliche Bewertung: Dieser Benchmark bewertet die Fähigkeit eines KI-Modells, aus natürlichsprachlichen Beschreibungen von Programmieraufgaben korrekte und funktionale Codeausschnitte zu generieren. Er testet die Beherrschung von Programmiersprachen durch das Modell und seine Fähigkeit, Probleme bei der Softwareentwicklung zu lösen.
Mehrsprachige Mathematik MGSM (Mehrsprachige Mathematik für Grundschüler): Dieser Benchmark bewertet die Fähigkeit eines Modells, mathematische Probleme auf Grundschulniveau in verschiedenen Sprachen zu lösen. Er testet sowohl das mathematische Denken des Modells als auch seine Fähigkeit, verschiedene sprachliche Kontexte zu verstehen und in ihnen zu reagieren. Er wurde von Shi et al. in einem Artikel mit dem Titel „Sprachmodelle sind mehrsprachige Denkketten-Reasoner“ vorgestellt.
-
Claude 3.5 Sonett: 91,6 % (0-Schuss-CoT)
-
GPT-4o: 90,5 % (0-Schuss-CoT)
-
Gemini 1.5 Pro: 87,5 % (8 Schuss)
Argumentation über Text DROP (Diskretes Denken über Absätze): Dieser Benchmark misst die Fähigkeit einer KI, diskrete Denkaufgaben wie Informationsextraktion und Rechenoperationen an Textabschnitten auszuführen. Der F1-Score, eine gängige Metrik im maschinellen Lernen zur Bewertung von Klassifizierungsaufgaben, wird verwendet, um die Genauigkeit des Modells bei diesen Aufgaben zu bewerten und dabei Präzision und Rückruf abzuwägen. Er wurde von Dua et al. in einem Artikel mit dem Titel „DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs“ vorgestellt.
Gemischte Bewertungen BIG-Bench-Hard: Dieser Benchmark ist Teil der Beyond the Imitation Game Benchmark (BIG-Bench)-Suite und konzentriert sich auf außergewöhnlich anspruchsvolle Aufgaben, die tiefes Denken, Verständnis und Kreativität erfordern. Diese Aufgaben erweitern die Grenzen der KI-Fähigkeiten in verschiedenen Bereichen. Dies wurde von Suzgun et al. in einem Artikel mit dem Titel „Challenging BIG-Bench Tasks and whether Chain-of-Thought Can Solve Them“ vorgestellt.
Mathematische Problemlösung MATHEMATIK: Dieser Benchmark testet die Fähigkeit eines KI-Modells, mathematische Probleme auf Highschool- bis College-Niveau zu lösen. Er bewertet das Verständnis des Modells für mathematische Konzepte, seine Problemlösungsfähigkeiten und seine Fähigkeit, komplexe Berechnungen durchzuführen.
-
Claude 3.5 Sonett: 71,1 % (0-Schuss-CoT)
-
GPT-4o: 76,6 % (0-Schuss-CoT)
-
Gemini 1.5 Pro: 67,7 % (4-Schuss)
Mathematik in der Grundschule GSM8K (Mathematik 8K für die Grundschule): Dieser Benchmark bewertet die Kompetenz eines KI-Modells beim Lösen einer breiten Palette von Mathematikproblemen, die typischerweise in der Grundschule (K-8) auftreten. Er misst das Verständnis des Modells für grundlegende Arithmetik, Geometrie und Textaufgaben.
Die Ergebnisse
Claude 3.5 Sonnet übertrifft GPT-4o und Gemini 1.5 Pro in den meisten Benchmarks im Allgemeinen.
Es zeigt überragende Leistungen in den Bereichen logisches Denken auf Hochschulniveau, Codierung (HumanEval), mehrsprachige Mathematik, logisches Denken über Text, gemischte Bewertungen und Mathematik auf Grundschulniveau.
GPT-4o bietet sehr gute Leistungen in den Bereichen Wissen auf Bachelor-Niveau, Codierung (HumanEval) und mathematisches Problemlösen.
Gemini 1.5 Pro zeigt eine starke Leistung bei gemischten Bewertungen und beim Schlussfolgerungsvergleich über Text.
Benchmark-Testergebnisse mit Vorsicht genießen
Die meisten Benchmarks sind darauf ausgelegt, die Grenzen eines Modells nur bei einer einzigen Aufgabe gleichzeitig auszureizen, was in realen Szenarien selten vorkommt. Reale Anwendungen beinhalten oft komplexe, kontextabhängige Aufgaben, die Benchmarks möglicherweise nicht vollständig erfassen. Sie sind in der Regel vereinfacht und kontrolliert, während reale Szenarien viel komplexer sein können.
Benchmarks messen normalerweise die Leistung eines Modells isoliert. Der Nutzen im wirklichen Leben erfordert jedoch oft die Interaktion mit Menschen, das Verständnis des Kontexts und die dynamische Anpassung von Reaktionen – Aspekte, die Benchmarks möglicherweise nicht vollständig erfassen.
Reale Umgebungen ändern sich ständig und Benchmarks sind statisch. Die Fähigkeit eines Modells, sich in einer dynamischen Umgebung kontinuierlich anzupassen und zu lernen, ist entscheidend, wird aber normalerweise nicht durch Standard-Benchmarks gemessen.
Während Claude 3.5 Sonnet, GPT-4o und Gemini 1.5 Pro in den Benchmarks unterschiedliche Ergebnisse erzielen, hängt ihre praktische Wirksamkeit letztlich von ihrer Leistung in realen Szenarien ab und davon, wie gut sie die spezifischen Anforderungen ihrer vorgesehenen Anwendungen erfüllen. Wer die Nase vorn hat, hängt auch davon ab, wie viel OpenAI, Perplexity und Google für die Rechenleistung aufwenden, um ihre Modelle neu zu trainieren und Inferenzen auszuführen.
Finden Sie uns auf YouTube