Diesen Monat stellte google seinen neuesten Versuch vor, chatgpt von der Position zu entthronen, die es seit seiner Einführung als König der generativen KI-Chatbots innehatte.
Bard – jetzt umbenannt in Gemini – wurde Anfang 2023 nach der bahnbrechenden LLM-basierten Chat-Schnittstelle von OpenAI veröffentlicht. Und um ehrlich zu sein: Oft schien es so, als würde man aufholen.
Dank der Integration in die Suchtechnologie von Google war Bard vom ersten Tag an in der Lage, auf das Internet zuzugreifen. In der Zwischenzeit beschränkte sich die Startversion von ChatGPT auf das Wissen, das während der Schulung vermittelt wurde.
Aber OpenAI fügte ChatGPT bald Konnektivität und die Möglichkeit hinzu, über eine Verbindung mit Bing von Microsoft auf externe Informationen zuzugreifen. Abgesehen von der Konnektivität besteht seit jeher Konsens darüber, dass ChatGPT für ein breiteres Spektrum an Sprachverarbeitungsaufgaben einfach nützlicher ist.
Jetzt zieht Google alle Register und benennt Bard mit dem Namen des Sprachmodells um, das die Arbeit hinter den Kulissen erledigt, und ermöglicht den Zugriff auf seinen Advanced-Dienst über ein Abonnement, dessen Preis direkt mit ChatGPT konkurriert.
Ist es also bereit, in den Ring zu steigen und sich mit dem unangefochtenen Champion zu messen? Hier gebe ich einen Überblick über beide Plattformen und hebe die Unterschiede hervor, die Sie kennen sollten, wenn Sie sich für eine Plattform entscheiden.
Die Sprachmodelle
Zunächst ist es erwähnenswert, dass sowohl Gemini als auch ChatGPT auf unglaublich umfangreichen und leistungsstarken Large Language Models (LLMs) basieren, die weitaus fortschrittlicher sind als alles, was in der Vergangenheit öffentlich verfügbar war.
Denken Sie daran, dass ChatGPT lediglich die Schnittstelle ist, über die Benutzer mit dem Sprachmodell kommunizieren – GPT4 (zahlende Benutzer von ChatGPT Pro) oder GPT3.5 (kostenlose Benutzer).
Im Fall von Google heißt die Schnittstelle Gemini (früher Bard) und dient der Kommunikation mit dem Sprachmodell, das eine separate Einheit ist, aber auch Gemini (oder Gemini Ultra, wenn Sie für den Gemini Advanced-Dienst bezahlen) heißt.
Es ist wichtig zu berücksichtigen, dass die beabsichtigte Benutzererfahrung, obwohl wir beide Chatbots nennen, etwas anders ist. ChatGPT soll Gespräche ermöglichen und dabei helfen, Probleme auf gesprächige Weise zu lösen – ähnlich wie beim Chatten mit einem Experten zu einem Thema.
Gemini hingegen scheint darauf ausgelegt zu sein, Informationen so zu verarbeiten und Aufgaben zu automatisieren, dass der Benutzer Zeit und Mühe spart.
Aus technischer Sicht wird die Leistungsfähigkeit von LLM-Modellen häufig an der Anzahl der Parameter (trainierbaren Werte) innerhalb des neuronalen Netzwerks gemessen. Es wurde berichtet, dass die Netzwerke von GPT-4 rund eine Billion Parameter enthalten, es sind jedoch keine konkreten Fakten über die Anzahl der von Gemini verwendeten Parameter bekannt.
Dies ist jedoch möglicherweise nicht wichtig, da es möglicherweise ausreicht, nur zu wissen, dass beide sehr, sehr mächtig sind.
Subbarao Kambhampati, KI-Professor an der Arizona State University, sagte kürzlich gegenüber Wired: „Wir sind im Grunde an einem Punkt angelangt, an dem die meisten LLMs hinsichtlich qualitativer Kennzahlen nicht mehr zu unterscheiden sind.“
Mit anderen Worten: Es kommt nicht auf die technische Größe und Leistung des Modells an, sondern auf die Art und Weise, wie es abgestimmt, trainiert und präsentiert wurde, um Benutzern bei der Lösung von Problemen zu helfen.
Und der Gewinner ist …
Nachdem ich beide eine Zeit lang verwendet habe, um verschiedene Gespräche zu unterschiedlichen Themen zu führen, scheint es mir klar zu sein, dass ChatGPT dank des Grunzens von GPT-4 immer noch die leistungsfähigere Chat-Schnittstelle ist. Zwillinge schließen jedoch die Lücke!
Informationsrückgewinnung
Ein Vorteil von Gemini besteht darin, dass es standardmäßig alle verfügbaren Informationen berücksichtigt – einschließlich des Internets, des umfangreichen Wissensgraphen von Google und seiner Trainingsdaten.
ChatGPT hingegen entscheidet sich oft immer noch dafür, eine Frage ausschließlich auf der Grundlage seiner Trainingsdaten zu beantworten. Dies kann gelegentlich dazu führen, dass die Informationen veraltet sind. Sie können dies jedoch umgehen, indem Sie es auffordern, im Internet nach den neuesten und aktuellsten Daten zu suchen. Dies führt jedoch immer noch zu einem zusätzlichen Schritt, der, wie Gemini gezeigt hat, nicht wirklich erforderlich ist.
Aufgrund meiner Erfahrung mit der Nutzung beider Plattformen muss ich sagen, dass sich Gemini als etwas geschickter als ChatGPT erweist, wenn es um die Online-Suche und die Integration der gefundenen Informationen in seine Antworten geht.
Wenn ChatGPT online geht und nach Informationen sucht, verlieren seine Antworten tendenziell etwas an Dynamik. Es scheint oft so, als ob es Fragen beantwortet oder Antworten auf der Grundlage einer einzigen Websuche und einer einzigen Informationsquelle bereitstellt, anstatt eine umfassende Analyse aller Informationen durchzuführen, auf die es zugreifen kann, und zu einer Schlussfolgerung zu gelangen.
Hier ist ein kurzes Beispiel dafür, was das bedeutet. Ich nutze KI-Chatbots oft, um mir einen schnellen Überblick über ein Unternehmen oder seine Produkte oder Dienstleistungen zu verschaffen. Verwenden Sie die gleiche Aufforderung („Erzählen Sie mir davon“) [URL]“), wird ChatGPT oft einfach einen Marketing-Klappentext von der Website wiedergeben.
In der kurzen Zeit, die ich zum Testen hatte, scheint Gemini einen differenzierteren Ansatz zu verfolgen. Es fasst die Informationen zusammen, die es finden kann, und versucht gleichzeitig, einen ausgewogenen Überblick über die Funktionen zu erstellen.
Ich würde also sagen, dass Gemini in diesem Bereich seinem Konkurrenten leicht voraus ist.
Aber das ist noch lange nicht das Ende der Geschichte. Wenn es darum geht, die Informationen, auf denen es trainiert wurde, intelligent zu analysieren, um eine Antwort zu formulieren, geht ChatGPT immer noch als Sieger hervor.
Und der Gewinner ist…
Nennen wir es ein Unentschieden, wobei Gemini besser ist, wenn es darum geht, Antworten aus Online-Texten zu formulieren, und ChatGPT besser bei Nicht-Internet-Anfragen ist.
Multimodale Funktionen
Multimodale KIs sind solche, die mehr als einen Datentyp verarbeiten können. Frühe Versionen von ChatGPT lesen und generieren nur Text. Aber seit OpenAI seine „Engine“ auf GPT-4 aktualisiert hat, ist es in der Lage, Bild- und Audiodaten zu verarbeiten, wodurch es multimodal wird. Gemini hingegen war von Anfang an multimodal (obwohl nicht alle Funktionen sofort aktiviert wurden).
ChatGPT generiert Bilder mithilfe des DALL-E-Modells, das ebenfalls von OpenAI entwickelt wurde. Gemini hingegen nutzt die Imagen 2-Engine von Google. Beide sind offensichtlich sehr leistungsstark und können erstaunliche Ergebnisse erzielen. Allerdings würde ich sagen, dass ChatGPT konsistenter ist, wenn es darum geht, ein Bild zu erstellen, das genau meinen Vorstellungen entspricht, wenn wir sie auf der Basis derselben Eingabeaufforderung vergleichen.
Ein von anderen festgestellter Unterschied besteht darin, dass Imagen 2 und Gemini etwas besser darin sind, fotorealistische, sehr detaillierte Bilder zu erzeugen. ChatGPT hingegen zeichnet sich durch die Verwaltung räumlicher Beziehungen zwischen Objekten in seinen Bildern aus und ist besser darin, Eingabeaufforderungen kreativ zu interpretieren.
Beide sind außerdem in der Lage, Computercode in einer Vielzahl von Programmiersprachen zu verstehen und zu schreiben. Es gibt jedoch geringfügige Unterschiede darin, wie sie dies tun.
Nun, ich bin kein Programmierer – aber das Tolle ist, mit ChatGPT oder Gemini vor Ihnen müssen Sie es auch nicht sein.
Es besteht kein Zweifel, dass die überlegenen Konversationsfähigkeiten von ChatGPT hier einige erhebliche Vorteile bieten. Wenn Sie sich nicht ganz sicher sind, was Ihr Code tun soll oder wie Sie ihn am besten integrieren können, ist es besser, wenn es darum geht, klare und hilfreiche Anleitungen zu erstellen und Vorschläge und Tipps anzubieten.
Und der Gewinner ist …
Ich werde dieses noch einmal an ChatGPT weitergeben. Während Gemini eine bessere Fotorealistik erzeugt, gewinnt ChatGPT, wenn es darum geht, Bilder zu generieren, die genau den Anforderungen des Benutzers mit seiner Eingabeaufforderung entsprechen. Gemini scheint etwas besser darin zu sein, technischen Code zu erstellen, kann aber als Konversationsschnittstelle zum Erstellen und Experimentieren nicht mit ChatGPT mithalten.
(Nur eine kurze Anmerkung: Die Gemini-Bildgenerierung wurde für Benutzer in Europa noch nicht eingeführt – hoffentlich wird sie bald hinzugefügt.)
Was ist also das Beste?
Nun ja, beides ist keineswegs perfekt. Beide leiden immer noch unter Halluzinationen und geben relativ häufig einfach falsche Informationen weiter. Gemini hat mir zum Beispiel gesagt, dass Dall-E 2 von OpenAI keine Diffusionsmodelltechnologie verwendet (das tut es). Und ChatGPT hat mir gesagt, dass Gemini nicht in der Lage ist, Bilder zu erzeugen (das ist es).
Aber für mein Geld würde ich, wenn Sie nur eines abonnieren möchten, im Moment eher zu ChatGPT Pro greifen.
Es gibt ein paar Vorbehalte: Wenn Sie sich stark für das Google-Ökosystem interessieren, ist die Fähigkeit von Gemini, mit Gmail und Google Docs zu kommunizieren, wahrscheinlich eine Hauptattraktion für Sie. Wenn Sie ein erfahrener Programmierer sind und Ihr Hauptbedürfnis das Programmieren ist, schauen Sie sich auf jeden Fall Gemini an (aber werfen Sie auch einen Blick auf Co-Pilot von Microsoft).
Zum Schreiben und Erstellen von Dokumenten, zum Zusammenfassen, zur Generierung allgemeiner Bilder und zum Lernen durch Gespräche würde ich sagen, dass ChatGPT derzeit besser ist. Aus diesem Grund behält es seinen Platz als das Beste, was derzeit erhältlich ist.
Folge mir auf Twitter oder LinkedIn. Kasse Mein Webseite oder einige meiner anderen Arbeiten Hier.