Besonders auffällig ist das kürzlich von google veröffentlichte Gemini, das angeblich das erste große Modell ist, das in verschiedenen Aufgaben mit chatgpt von OpenAI vergleichbar ist.
Berichten zufolge übertrifft die „Ultra“-Version von Gemini GPT-4 bei verschiedenen Aufgaben, während die „Pro“-Version von Gemini GPT-3.5 ebenbürtig ist.
Als Reaktion auf die Konkurrenz zwischen den beiden beliebten Brathähnchen startete die Carnegie Mellon University in den USA kürzlich eine Studie, die das Sprachverständnis und die Generierungsfähigkeiten von Google Gemini eingehend untersuchte, sie mit der GPT-Serie von OpenAI verglich und interessante Ergebnisse lieferte. Fazit – Zwischen der umfassenden Leistung von Google Gemini und ChatGPT besteht immer noch eine große Lücke.
Papieradresse: https://arxiv.org/pdf/2312.11444.pdf
1. Gemini ist nur mit GPT-3.5 Turbo vergleichbar
Diese CMU-Studie untersucht zwei Hauptfragen:
Erstens bietet es einen objektiven Vergleich der Fähigkeiten von OpenAI GPT- und Google Gemini-Modellen durch Dritte mit reproduzierbarem Code und vollständig transparenten Ergebnissen;
Zweitens wurde eine eingehendere Untersuchung der Ergebnisse durchgeführt, um herauszufinden, welche Vorteile ein Modelltyp gegenüber jedem der beiden Modelltypen hat.
Das Forschungsteam analysierte 10 Datensätze, die verschiedene Sprachfähigkeiten testeten, darunter logisches Denken, die Beantwortung wissensbasierter Fragen, die Lösung mathematischer Probleme, die Übersetzung zwischen Sprachen, die Codegenerierung und die Funktion als Agent, der Anweisungen befolgt.
Basierend auf allen Benchmarking-Aufgaben analysierte das CMU-Team und stellte fest:
Das Gemini Pro-Modell ist in Bezug auf Modellgröße und Kategorie mit GPT 3.5 Turbo vergleichbar, und seine Genauigkeit ist im Allgemeinen mit GPT 3.5 Turbo vergleichbar, aber etwas schlechter als GPT 3.5 Turbo und viel schlechter als GPT 4.
Die durchschnittliche Leistung von Gemini Pro ist etwas niedriger als die von GPT 3.5 Turbo, insbesondere in Bereichen wie der Verzerrung der Antwortreihenfolge bei Multiple-Choice-Fragen, mehrstelligem mathematischem Denken, vorzeitiger Beendigung von Agentenaufgaben und fehlgeschlagenen Antworten aufgrund aggressiver Inhaltsfilterung .
Gemini übertrifft GPT 3.5 Turbo bei besonders langen und komplexen Inferenzaufgaben, einschließlich der Generierung nicht-englischer Sprachen und der Handhabung längerer, komplexerer Inferenzketten. Zwillinge sind auch gut darin, bei Aufgaben, bei denen die Antworten nicht gefiltert werden, mehrere Sprachen zu verwenden.
Die Abbildung zeigt die Hauptergebnisse des Benchmarks (das beste Modell ist fett dargestellt, das nächstbeste Modell ist unterstrichen. Mixtral wurde nur an einer Teilmenge der Aufgaben bewertet.)
2. Analyse der Schlüsselfunktionen großer Modelle
Zu mehreren Schlüsselfunktionen des großen Modells lauten die spezifischen Forschungsergebnisse des Teams wie folgt:
Frage- und Antwortfähigkeit im Wissensgraphen
In Bezug auf die Frage- und Antwortfunktionen großer Modelle können Sie der obigen Abbildung die Leistung jedes Modells bei einigen repräsentativen Aufgaben entnehmen. Im Vergleich zu GPT 3.5 schneidet Gemini Pro bei den meisten Aufgaben schlecht ab, und die Denkkettenaufforderung verringert die Leistung jedes Modells. Unterschiede zwischen Teilaufgaben.
Das Team führte außerdem eine eingehende Studie zum Unterschied zwischen der Leistung von Gemini Pro unter/besser als die von GPT Task 3.5 durch und kam zu dem Schluss:
1) Gemini Pro bleibt in den Bereichen menschliche Sexualität (Sozialwissenschaften), formale Logik (Geisteswissenschaften), elementare Mathematik (STEM) und professionelle Medizin (Berufsfelder) hinter GPT 3.5 zurück.
2) Bei den beiden Aufgaben, bei denen Gemini Pro besser als GPT 3.5 Turbo ist, erzielt Gemini Pro nur einen leichten Vorteil.
Denkfähigkeit
In Bezug auf die Argumentationsfähigkeiten ist die Gesamtgenauigkeit von Gemini Pro etwas geringer als bei GPT 3.5 Turbo und viel niedriger als bei GPT 4 Turbo. Allerdings schneidet Gemini Pro bei längeren und komplexeren Problemen schlecht ab, während das GPT-Modell robuster ist. .
Der Artikel listet auch die Aufgaben auf, bei denen die Leistung von GPT 3.5 Turbo die von Gemini Pro am meisten übertrifft:
Mathematische Fähigkeiten
Aus den Gesamtergebnissen der mathematischen Überlegungen geht hervor, dass bei GSM8K-, SVAMP- und ASDIV-Aufgaben, die mehrere Sprachmodi enthalten, die Genauigkeit von Gemini Pro etwas geringer ist als die von GPT 3.5 Turbo und viel geringer als die von GPT 4 Turbo.
Bei der MAWPS-Aufgabe übersteigt die Genauigkeit aller Modelle 90 %, Gemini Pro ist dem GPT-Modell jedoch immer noch etwas unterlegen.
Funktionen zur Codegenerierung
In Bezug auf die Codegenerierungsfähigkeiten schnitt Gemini Pro bei der englischen Aufgabe bei längerer Ein- und Ausgabe besser ab. Die Analyseergebnisse zeigen, dass Gemini Pro in den meisten Fällen, in denen Bibliotheken wie Mock, Pandas, Numpy und Datetime verwendet werden, schlechter abschneidet als GPT 3.5.
Im Fall von Matplotlib ist die Leistung jedoch besser als bei GPT 3.5 und GPT 4, was zeigt, dass Gemini über größere Fähigkeiten bei der Plotvisualisierung durch Code verfügt.
Maschinelle Übersetzungsfunktionen
In Bezug auf die Übersetzungsfähigkeiten ist die Leistung von Gemini Pro in 8 Sprachen besser als GPT 3.5 Turbo und GPT 4 Turbo. Im Vergleich dazu übertraf Gemini Pro GPT 3.5 Turbo und GPT 4 Turbo in 8 von 20 Sprachen und erzielte in 4 Sprachen die beste Leistung. Allerdings zeigte Gemini Pro eine starke Tendenz, Antworten in etwa 10 Sprachpaaren zu blockieren.
Leifeng.com Leifeng.com Leifeng.com(Öffentliches Konto: Leifeng.com)