Start ChatGPT CMU Research: Gemini verliert insgesamt gegen ChatGPT, Google muss noch hart arbeiten

Die doppelte Menge an Trainingsdaten ist besser als bei GPT-4, und das Gemini-Modell ist für Google zu einer Schlüsselwaffe geworden, um OpenAI zu besiegen

CMU Research: Gemini verliert insgesamt gegen ChatGPT, Google muss noch hart arbeiten

Von

Nina Weber

Dezember 27, 2023

Glücklich hide

1 1. Gemini kann nur mit GPT-3.5 Turbo verglichen werden

2 2. Analyse der Schlüsselfunktionen großer Modelle

2.1 Frage- und Antwortfähigkeit im Wissensgraphen

2.2 Denkfähigkeit

2.3 Mathematische Fähigkeiten

2.4 Programmierfähigkeit

2.5 Maschinelle Übersetzungsfunktionen

chatgpt, Google muss noch hart arbeiten“ itemprop=“image“/>

Kürzlich hat Google Gemini Aufmerksamkeit erregt und behauptet, das erste große Modell zu sein, das bei verschiedenen Aufgaben mit OpenAI ChatGPT konkurrieren kann. Ein Bericht zeigt, dass die Gemini-Version „Ultra“ bei verschiedenen Aufgaben besser als GPT-4 ist, während die Gemini-Version „Pro“ auf Augenhöhe mit GPT-3.5 liegt.

Carnegie Mellon University kürzlichForschunguntersuchte eingehend das Sprachverständnis und die Produktionsfähigkeiten von Google Gemini, verglich es mit der OpenAI GPT-Reihe und kam zu einem interessanten Ergebnis: Es besteht immer noch eine Lücke zwischen der Gesamtleistung von Google Gemini und ChatGPT.

1. Gemini kann nur mit GPT-3.5 Turbo verglichen werden

Die CMU-Studie geht zwei Fragen nach:

Vergleicht die Funktionen von OpenAI GPT und Google Gemini mit reproduzierbarem Code und vollständig transparenten Ergebnissen.
Finden Sie nach eingehender Recherche heraus, in welchen Bereichen bestimmte Typen der beiden Modelle von Vorteil sind.

Das Forschungsteam testete zehn Datenbanken zu verschiedenen Sprachfähigkeiten, indem es das Denken analysierte, wissensbasierte Fragen beantwortete, mathematische Probleme löste, Sprachübersetzungen durchführte, Code generierte und als Agent zur Befolgung von Anweisungen fungierte. Basierend auf allen Benchmark-Aufgaben stellte das CMU-Team fest:

Größe und Typ des Gemini Pro-Modells sind mit GPT 3.5 Turbo vergleichbar, und die Genauigkeit ist nur geringfügig schlechter; im Vergleich zu GPT 4 ist sie viel schlechter.

Die durchschnittliche Leistung von Gemini Pro ist etwas niedriger als die von GPT 3.5 Turbo, insbesondere bei Abweichungen in der Multiple-Choice-Fragen-Antwort-Reihenfolge, mehrstelligem mathematischem Denken, vorzeitiger Beendigung von Agentenaufgaben und Antwortfehlern aufgrund aggressiver Inhaltsfilterung. Bei besonders langen und komplexen Argumentationsaufgaben wie der Generierung nicht-englischer Sprachen und der Verarbeitung längerer und komplexerer Argumentationsketten schneidet Gemini besser ab als GPT 3.5 Turbo. Bei Aufgaben, die keine Antworten filtern, ist Gemini auch in mehreren Sprachen hervorragend geeignet.

Siehe auch OpenAI führt ChatGPT-Plugins für zahlende Abonnenten ein

▲Benchmark-Ergebnisse. Das beste Modell ist fett dargestellt und das zweitbeste Modell ist unterstrichen. Mixtral wertet nur einige Aufgaben aus.

2. Analyse der Schlüsselfunktionen großer Modelle

Die Ergebnisse mehrerer Schlüsselfunktionen des großen Modells sind wie folgt:

Frage- und Antwortfähigkeit im Wissensgraphen

Es ist ersichtlich, dass die Leistung einiger repräsentativer Aufgaben jedes Modells besser ist als die von GPT 3.5. Gemini Pro schneidet bei den meisten Aufgaben schlecht ab und die Denkkette fordert dazu auf, die Unterschiede in jeder Unteraufgabe zu verringern. Eingehende Untersuchung der Lücke zwischen der Leistung von Gemini Pro unter/besser als GPT-3.5 und der Schlussfolgerung:

Gemini Pro bleibt in den Bereichen menschliche Sexualität (Sozialwissenschaften), formale Logik (Geisteswissenschaften), elementare Mathematik (STEM) und professionelle Medizin (Berufsfelder) hinter GPT 3.5 zurück.
Gemini Pro übertrifft beide GPT 3.5 Turbos, wobei Gemini Pro nur einen leichten Vorteil erzielt.

Denkfähigkeit

Auf der Inferenzebene ist die Gesamtgenauigkeit von Gemini Pro etwas niedriger als bei GPT-3.5 Turbo und viel niedriger als bei GPT-4 Turbo; Gemini Pro schneidet bei längeren und komplexeren Problemen schlecht ab und das GPT-Modell ist stabiler. Außerdem bietet es GPT-3.5 Turbo mehr Leistung als Gemini Pro für die meisten Aufgaben:

Mathematische Fähigkeiten

Aus den Ergebnissen der mathematischen Argumentation geht hervor, dass die Genauigkeit von Gemini Pro bei GSM8K-, SVAMP- und ASDIV-Aufgaben im Mehrsprachenmodus etwas geringer ist als bei GPT-3.5 Turbo und viel geringer als bei GPT-4 Turbo. Bei der MAWPS-Aufgabe liegt die Genauigkeit aller Modelle bei über 90 %, Gemini Pro ist dem GPT-Modell jedoch immer noch etwas unterlegen.

Programmierfähigkeit

Beim Schreiben von Programmen schneidet Gemini Pro bei langen Ein- und Ausgabeaufgaben auf Englisch besser ab. Die Analyseergebnisse zeigen, dass bei Verwendung der meisten Funktionsbibliotheken wie Mock, Pandas, Numpy und Datetime die Leistung von Gemini Pro schlechter ist als die von GPT-3.5. Unter Matplotlib ist die Leistung jedoch besser als bei GPT-3.5 und GPT-4, was darauf hinweist, dass Gemini bei der Zeichnungsvisualisierung über Programme stärker ist.

Siehe auch Die leistungsstärkste ChatGPT-Version der Geschichte ist da! OpenAI hat einen weiteren großen Schritt gemacht und wird es einen „Kampf“ mit Microsoft, dem größten Geldgeber, beginnen? _Enterprise_Product_Data

Maschinelle Übersetzungsfunktionen

In Bezug auf die Übersetzungsfähigkeiten weist Gemini Pro in acht Sprachen eine bessere Leistung als GPT-3.5 Turbo und GPT-4 Turbo auf, wobei vier Sprachen die beste Leistung erzielen, aber etwa zehn Sprachen einen starken Trend zur Blockierungsreaktion aufweisen.

(Dieser Artikel wurde geschrieben von leifeng.com Nachdruck mit Genehmigung; Quelle des ersten Bildes:FilmBildschirmfoto)

Verfolgen Sie TechNews hier über Google News

Neue wissenschaftliche und technologische Erkenntnisse, die von Zeit zu Zeit aktualisiert werden

5/5 - (299 votes)

CMU Research: Gemini verliert insgesamt gegen ChatGPT, Google muss noch hart arbeiten

1. Gemini kann nur mit GPT-3.5 Turbo verglichen werden