Die Welt erlebt einen bemerkenswerten Aufschwung im Bereich der künstlichen Intelligenz (KI) mit einer wachsenden Nachfrage nach hochmodernen, kundenorientierten KI-Techniken, die die Effizienz und Produktivität steigern.
Unter den verschiedenen Bereichen, die immer beliebter werden, sticht die Verarbeitung natürlicher Sprache (NLP) hervor. Das Aufkommen kommerziell erfolgreicher Modelle wie chatgpt hat die Art und Weise revolutioniert, wie Menschen auf der ganzen Welt die Leistungsfähigkeit von Sprachmodellen für eine Reihe von Aufgaben nutzen.
Von der Gewährleistung einer einwandfreien Grammatik bis hin zur Entwicklung komplexer produktionsreifer Algorithmen hat sich ChatGPT als vielseitiges und unverzichtbares Werkzeug erwiesen.
Diese Sprachmodelle verändern die Landschaft sich wiederholender Aufgaben, reduzieren den Zeitaufwand erheblich und bieten ausreichend Raum für die Förderung von Kreativität und Ideenfindung. Darüber hinaus dienen sie als wertvolle Zweitmeinung, da sie sorgfältige Korrekturlese- und Fehlerprüfungsfunktionen bieten und schwer fassbare Fehler aufdecken, die oft vom menschlichen Auge übersehen werden.
Die explosionsartige Verbreitung von Sprachmodellen hat Technologiegiganten dazu veranlasst, in Richtung Innovation zu rennen und sukzessive Iterationen großer Sprachmodelle herauszubringen.
Anschließend hat die zweite Innovationswelle zu fortschrittlichen Verbesserungen geführt, wie z. B. verbesserten Fähigkeiten zur Beantwortung von Fragen, zum kontextbezogenen Verständnis, zum Abrufen von Informationen in Echtzeit aus dem Internet und sogar zur Bildgenerierung auf der Grundlage von Benutzereingaben. Was einst als theoretische Spekulation galt, ist mittlerweile greifbare, fast magische Realität geworden.
Als KI- und Produktprofis sind wir immer wieder erstaunt über die wachsenden Möglichkeiten in diesem Bereich. Durch den Einsatz generativer KI können wir Chatbots verbessern, Dokumentzusammenfassungen optimieren, unterstützende Inhalte erstellen und sogar visuelle Produktdesigns generieren. Das transformative Potenzial der generativen KI in unserer Arbeit ist wirklich bemerkenswert und wir rechnen mit noch größeren Innovationen.
Sumedha Raiein leitender Datenwissenschaftler und KI-Forscher mit Sitz in New York, und Praneel Midhaein Student im zweiten Jahr an der University of Illinois in Urbana Champaign, der Systemtechnik und Design studiert und derzeit bei Alcon Inc. in Georgia arbeitet, führte eine umfassende Leistungsanalyse durch, in der er die beiden bekannten großen Sprachmodelle von OpenAI und google verglich.
Sie bewerteten die Wirksamkeit verschiedener Themen, indem sie ihre Antworten auf mehrere Eingabeaufforderungen analysierten.
KOSTENANALYSE
Die Preise für beide LLMs sehen nach der kürzlichen Umbenennung von Gemini in Gemini sehr ähnlich aus.
ChatGPT (nur 3.5) | Frei |
ChatGPT Plus (3.5 und 4) | 20 $/Monat |
Zwillinge | Frei |
Zwillinge Fortgeschritten | 19,99 $/Monat |
ENGLISCH UND GENERATIVE KI
Wenn es darum geht, grundlegende grammatikalische Fehler zu korrigieren, weisen beide Modelle eine ähnliche Leistung auf. Zwillinge können die vorgenommenen Korrekturen etwas besser erklären. Auch die Darstellung der Antwort ist besser lesbar.
Als nächstes versuchten sie, die kreativen Fähigkeiten dieser LLMs zu testen, indem sie ihnen einige ausgewählte Schlüsselwörter lieferten und sie baten, eine Kurzgeschichte mit ähnlichen Schlüsselwörtern und Aufforderungen zu erstellen.
Beide Erzählungen zeichnen sich durch außergewöhnliche Handwerkskunst aus und zeichnen sich durch gut strukturierte Kompositionen mit Einleitungen, subtilen Höhepunkten und befriedigenden Schlussfolgerungen aus. Ihre Beschreibungsfähigkeit verstärkt die Gesamtwirkung und zeigt die bemerkenswerte Fähigkeit der KI, aus scheinbar unterschiedlichen Aufforderungen kohärente Erzählungen zu weben. Bemerkenswert ist, dass beide Stücke die vorgeschriebene Wortbeschränkung von 100 überschreiten, wobei ChatGPT diese um lediglich 4 Wörter und Gemini um über 100 überschreitet.
Dennoch kürzt Gemini seine Erzähllänge auf Benutzerwunsch mithilfe der Funktion „Antwort ändern“ effizient und demonstriert so Anpassungsfähigkeit und Reaktionsfähigkeit auf Benutzerbedürfnisse. Diese Missachtung von Wortbeschränkungen könnte dem Geschichtenerzählen Vorrang vor der strikten Einhaltung einräumen und Fragen über die kreative Freiheit der KI und unsere Erwartungen an von Menschen erstellte gegenüber maschinengenerierten Erzählungen aufwerfen.
Ihrer Einschätzung nach dient ChatGPT als außergewöhnlicher Schreibbegleiter, der Texte gekonnt paraphrasiert und gleichzeitig die Feinheiten der Sprache erfasst. Es übernimmt kompetent die Rechtschreibprüfung und Grammatikkorrektur und bietet ausgefeilte Umformulierungen. Umgekehrt versucht Gemini, sich kreative Freiheiten zu nehmen und Ihren Text zu verschönern, indem er gelegentlich Inhalte einführt, die von der ursprünglichen Absicht abweichen.
Ihr Urteil: ChatGPT: Präzise und direkt, behält die Hauptideen bei. Zwillinge: Erfinderisch, mit vielseitigem Geschichtenerzählen.
BILDERZEUGUNG
Derzeit verfügen sowohl ChatGPT 4.0 als auch Gemini (einschließlich der frei zugänglichen Version) über Funktionen zur Bildgenerierung, eine Funktion, die in ChatGPT 3.5 fehlt.
Während die Bilderzeugungsfähigkeiten von Gemini immer noch auf dem Prüfstand stehen, bleibt die Möglichkeit, Bilder mithilfe eines frei verfügbaren Modells zu erzeugen, faszinierend. Anschließend baten sie ChatGPT 4.0 und Gemini, Bilder zu generieren und die Ergebnisse zu vergleichen.
Prompt: Erstellen Sie ein Bild von KI in der Neurochirurgie. DALL·E erstellt faszinierende und futuristische Bilder mit viel Liebe zum Detail und verwandelt fantasievolle Konzepte nahtlos in visuell atemberaubende Kreationen. Im Gegensatz dazu tendieren die von Gemini generierten Bilder zu einer humaneren Ästhetik und weisen einen weniger futuristischen Ton und einen vergleichsweise geringeren Detaillierungsgrad auf.
Während Gemini den Vorteil bietet, vier Bilder pro Anfrage zu generieren und so die Auswahlmöglichkeiten für den Benutzer zu erweitern, fehlt der Ausgabe tendenziell das gleiche Maß an Innovation und kreativem Flair wie in den Ausgaben von DALL·E. Diese Unterscheidung kann wahrscheinlich dadurch entstehen, dass sich die Ausbildung von DALL·E stark auf Text- und Bildpaare für die Bilderzeugung konzentriert und das Unternehmen damit über überlegene Fähigkeiten in diesem Bereich verfügt. Im Gegensatz dazu bietet die Ausbildung von Gemini, obwohl sie vielfältiger ist und Text, Bilder, Audio und mehr umfasst, möglicherweise nicht den gleichen Spezialisierungsgrad in der Bilderzeugung wie DALL·E.
Ihr Urteil: ChatGPT: Detaillierte, fantasievolle Bilder, bei denen oft Kreativität gegenüber menschlichen Elementen bevorzugt wird. Zwillinge: Bietet eine Vielzahl von Bildern in einem College-Rahmen und betont häufig die Beteiligung des Menschen an der Schöpfung.
ALLGEMEINE BENUTZERERFAHRUNG
Aussehen: Beide KI-Modelle verwenden standardmäßige helle und dunkle Themen und verfügen über ein linkes Feld, das den Gesprächsverlauf mit dem LLM anzeigt, während die Hauptseite zentral bleibt. ChatGPT verbessert das Benutzererlebnis mit seiner optimierten Benutzeroberfläche – das Scrollen von Konversationen wird durch kompakte Zeilenabstände und minimale Einzüge erleichtert, was die Lesbarkeit erheblich verbessert.
Im Gegensatz dazu versucht Gemini, eine klarere Ästhetik zu erreichen, indem es den Leerraum und den Zeilenabstand vergrößert. Diese Designwahl beeinträchtigt jedoch unbeabsichtigt die Lesbarkeit, insbesondere im Kontext von Chat-Konversationen.
Möglichkeit zum „Ändern der Antwort“: Gemini verfügt über eine Schaltfläche „Antwort ändern“, mit der die Antwort je nach Benutzeranforderungen verkürzt oder verlängert werden kann. Mit dieser Funktion kann Gemini auch den Ton der Antwort ändern, um sie einfacher, lockerer oder professioneller klingen zu lassen.
Sie fanden diese Funktionen besonders nützlich beim Schreiben von Artikeln oder beim Verfassen von E-Mails. Mit ChatGPT können Sie entweder einen Folgebefehl zum Bearbeiten der Längen und Töne eingeben oder die Antwort insgesamt neu generieren. Mit Gemini können Sie jedoch dasselbe tun, ohne mit wenigen Klicks einen neuen Befehl eingeben zu müssen.
Eine zweite Meinung: Gemini verfügt außerdem über die Funktion „Entwürfe anzeigen“, die Ihnen im Wesentlichen andere Antworten anzeigt, die es vorbereitet, aber letztendlich zugunsten der angezeigten Antwort abgelehnt hat. Sie fanden diese Funktion besonders nützlich, wenn sie ein Problem aus verschiedenen Blickwinkeln angehen wollten.
Easy Share: Mit Gemini können Sie die Chats auch in ein Google-Dokument exportieren, was unserer Meinung nach äußerst zeiteffizient ist. Anstatt die Formatierung zu kopieren, einzufügen und zu bearbeiten, können Sie sie einfach und problemlos in ein Google-Dokument exportieren.
Geschwindigkeit und Latenz: ChatGPT 3.5 zeichnet sich durch eine bemerkenswerte Geschwindigkeit aus und übertrifft Gemini bei der Bereitstellung von Antworten auf Fragen, die keinen Internetzugang erfordern, und arbeitet effektiv im „Turbo“-Modus. Während ChatGPT 4 aufgrund des Echtzeit-Internet-Browsings für angereicherte Antworten zu einer Verzögerung führt, bleibt die Leistung bei Standardanfragen effizient.
Umgekehrt kann die spürbare Reaktionslatenz von Gemini als Einschränkung angesehen werden.
Ihr Urteil: ChatGPT 3.5: Blitzschnell, benötigt nicht immer die neuesten Informationen. Zwillinge: Internetabhängig, Geschwindigkeit tritt in den Hintergrund
ABSCHLIESSENDE GEDANKEN
Während beide LLMs erhebliche Vorteile bieten, bietet ChatGPT ein unkompliziertes und umfassendes Erlebnis, das sich insbesondere durch Konversations-KI, Kontextverständnis und schnelle Ausgabe auszeichnet. Als Neueinsteiger legt Gemini Wert auf Ästhetik, integriert zahlreiche nützliche und ansprechende Funktionen und sammelt wertvolles Feedback.
Darüber hinaus dürfte sich ChatGPT inzwischen einer gewissen Kundentreue erfreuen. Wir sind beide seit über einem Jahr begeisterte Nutzer von ChatGPT. Die Umstellung auf eine neue Benutzeroberfläche bringt für Kunden trotz vergleichbarer Leistungsmerkmale beider Produkte einige Herausforderungen mit sich.
Der frühe Markteintritt von OpenAI könnte ihm einen Vorteil gegenüber Googles Gemini verschaffen. Bemerkenswert ist jedoch, dass die Integration von Gemini mit verschiedenen Google-Diensten wie Docs das Potenzial für eine weitere Expansion in Sheets, Colab und Drive nahelegt, was das Ökosystem erheblich verbessern und die Akzeptanz erheblich steigern könnte. Die LLM-Landschaft bleibt umfangreich und explorativ und bietet viel Raum für Innovationen.
Der Markt ist noch lange nicht gesättigt, da die großen Technologieunternehmen um die Entwicklung immer fortschrittlicherer Modelle wie Metas Markteinführung von Llama 3 wetteifern. Wir gehen davon aus, dass in Zukunft immer mehr LLMs auf den Markt kommen. Der Erfolg hängt jedoch von einer einzigartigen Nische und einem starken USP ab. Die Koexistenz mehrerer Modelle ist möglich, ähnlich wie bei analogen Produkten großer Wettbewerber. Alternativ könnte die Marktintegration zur Dominanz führen. Allein die Zeit wird den endgültigen Sieger bestimmen!