Kürzlich hat Google Gemini Aufmerksamkeit erregt und behauptet, das erste große Modell zu sein, das bei verschiedenen Aufgaben mit OpenAI ChatGPT konkurrieren kann. Ein Bericht zeigt, dass die Gemini-Version „Ultra“ bei verschiedenen Aufgaben besser als GPT-4 ist, während die Gemini-Version „Pro“ auf Augenhöhe mit GPT-3.5 liegt.
Carnegie Mellon University kürzlichForschunguntersuchte eingehend das Sprachverständnis und die Produktionsfähigkeiten von Google Gemini, verglich es mit der OpenAI GPT-Reihe und kam zu einem interessanten Ergebnis: Es besteht immer noch eine Lücke zwischen der Gesamtleistung von Google Gemini und ChatGPT.
1. Gemini kann nur mit GPT-3.5 Turbo verglichen werden
Die CMU-Studie geht zwei Fragen nach:
- Vergleicht die Funktionen von OpenAI GPT und Google Gemini mit reproduzierbarem Code und vollständig transparenten Ergebnissen.
- Finden Sie nach eingehender Recherche heraus, in welchen Bereichen bestimmte Typen der beiden Modelle von Vorteil sind.
Das Forschungsteam testete zehn Datenbanken zu verschiedenen Sprachfähigkeiten, indem es das Denken analysierte, wissensbasierte Fragen beantwortete, mathematische Probleme löste, Sprachübersetzungen durchführte, Code generierte und als Agent zur Befolgung von Anweisungen fungierte. Basierend auf allen Benchmark-Aufgaben stellte das CMU-Team fest:
Größe und Typ des Gemini Pro-Modells sind mit GPT 3.5 Turbo vergleichbar, und die Genauigkeit ist nur geringfügig schlechter; im Vergleich zu GPT 4 ist sie viel schlechter.
Die durchschnittliche Leistung von Gemini Pro ist etwas niedriger als die von GPT 3.5 Turbo, insbesondere bei Abweichungen in der Multiple-Choice-Fragen-Antwort-Reihenfolge, mehrstelligem mathematischem Denken, vorzeitiger Beendigung von Agentenaufgaben und Antwortfehlern aufgrund aggressiver Inhaltsfilterung. Bei besonders langen und komplexen Argumentationsaufgaben wie der Generierung nicht-englischer Sprachen und der Verarbeitung längerer und komplexerer Argumentationsketten schneidet Gemini besser ab als GPT 3.5 Turbo. Bei Aufgaben, die keine Antworten filtern, ist Gemini auch in mehreren Sprachen hervorragend geeignet.
▲Benchmark-Ergebnisse. Das beste Modell ist fett dargestellt und das zweitbeste Modell ist unterstrichen. Mixtral wertet nur einige Aufgaben aus.
2. Analyse der Schlüsselfunktionen großer Modelle
Die Ergebnisse mehrerer Schlüsselfunktionen des großen Modells sind wie folgt:
Frage- und Antwortfähigkeit im Wissensgraphen
Es ist ersichtlich, dass die Leistung einiger repräsentativer Aufgaben jedes Modells besser ist als die von GPT 3.5. Gemini Pro schneidet bei den meisten Aufgaben schlecht ab und die Denkkette fordert dazu auf, die Unterschiede in jeder Unteraufgabe zu verringern. Eingehende Untersuchung der Lücke zwischen der Leistung von Gemini Pro unter/besser als GPT-3.5 und der Schlussfolgerung:
- Gemini Pro bleibt in den Bereichen menschliche Sexualität (Sozialwissenschaften), formale Logik (Geisteswissenschaften), elementare Mathematik (STEM) und professionelle Medizin (Berufsfelder) hinter GPT 3.5 zurück.
- Gemini Pro übertrifft beide GPT 3.5 Turbos, wobei Gemini Pro nur einen leichten Vorteil erzielt.
Denkfähigkeit
Auf der Inferenzebene ist die Gesamtgenauigkeit von Gemini Pro etwas niedriger als bei GPT-3.5 Turbo und viel niedriger als bei GPT-4 Turbo; Gemini Pro schneidet bei längeren und komplexeren Problemen schlecht ab und das GPT-Modell ist stabiler. Außerdem bietet es GPT-3.5 Turbo mehr Leistung als Gemini Pro für die meisten Aufgaben:
Mathematische Fähigkeiten
Aus den Ergebnissen der mathematischen Argumentation geht hervor, dass die Genauigkeit von Gemini Pro bei GSM8K-, SVAMP- und ASDIV-Aufgaben im Mehrsprachenmodus etwas geringer ist als bei GPT-3.5 Turbo und viel geringer als bei GPT-4 Turbo. Bei der MAWPS-Aufgabe liegt die Genauigkeit aller Modelle bei über 90 %, Gemini Pro ist dem GPT-Modell jedoch immer noch etwas unterlegen.
Programmierfähigkeit
Beim Schreiben von Programmen schneidet Gemini Pro bei langen Ein- und Ausgabeaufgaben auf Englisch besser ab. Die Analyseergebnisse zeigen, dass bei Verwendung der meisten Funktionsbibliotheken wie Mock, Pandas, Numpy und Datetime die Leistung von Gemini Pro schlechter ist als die von GPT-3.5. Unter Matplotlib ist die Leistung jedoch besser als bei GPT-3.5 und GPT-4, was darauf hinweist, dass Gemini bei der Zeichnungsvisualisierung über Programme stärker ist.
Maschinelle Übersetzungsfunktionen
In Bezug auf die Übersetzungsfähigkeiten weist Gemini Pro in acht Sprachen eine bessere Leistung als GPT-3.5 Turbo und GPT-4 Turbo auf, wobei vier Sprachen die beste Leistung erzielen, aber etwa zehn Sprachen einen starken Trend zur Blockierungsreaktion aufweisen.
(Dieser Artikel wurde geschrieben von leifeng.com Nachdruck mit Genehmigung; Quelle des ersten Bildes:FilmBildschirmfoto)
Neue wissenschaftliche und technologische Erkenntnisse, die von Zeit zu Zeit aktualisiert werden