Es ist eineinhalb Jahre her, dass chatgpt eingeführt wurde, und verschiedene Sprachmodelle sind in großer Zahl entstanden, aber welches eignet sich am besten für den täglichen Gebrauch durch normale Benutzer? Kürzlich hat das Wall Street Journal einen Test mit fünf Chatbots durchgeführt und die Qualität der Antworten in verschiedenen Nutzungsszenarien bewertet.

Das Wall Street Journal nahm ChatGPT, Copilot, ins Visier. Es gibt insgesamt 5 Chatbots, Gemini, Claude und Perplexity, die jeweils in den Kategorien Medizin, Finanzen, Kochen, Schreiben am Arbeitsplatz, kreatives Schreiben, Zusammenfassung, aktuelle Nachrichten, Programme und Reaktionsgeschwindigkeit eingestuft sind und alle kostenpflichtige erweiterte Versionen verwenden.

Das Redaktionsteam entwarf eine Reihe von Aufforderungswörtern, um die Nutzungsergebnisse jedes Szenarios zu testen, bewertete sie nach Genauigkeit, Nützlichkeit und Gesamtniveau und erstellte schließlich eine Rangfolge unter verschiedenen Chatbots.

Sie betonten dies jedoch Hierbei handelt es sich nicht um eine wissenschaftliche Auswertung, sondern soll Antworten von tatsächlichen Nutzern dieser Chatbots widerspiegeln.

Bei einer Überraschung steht die Ratlosigkeit an erster Stelle

Beginnen wir mit den Ergebnissen. Es war nicht ChatGPT, das den ersten Platz in der Gesamtwertung belegte. Es handelt sich um einen gleichnamigen Chatbot, der vom Startup Perplexity ins Leben gerufen wurde gewann die Goldmedaille bei dieser „Chatbot-Olympiade“.

Siehe auch  ChatGPT präsentiert Inhalte der Financial Times in strategischer Zusammenarbeit

Die Plätze 2 bis 5 im Gesamtranking belegen jeweils ChatGPT, Gemini, Claude und Copilot.

Das bedeutet nicht, dass Perplexity andere Konkurrenten in allen Bereichen übertrifft, aber Perplexity gewann den ersten Platz in drei der neun Kategorien, nämlich „Übersicht“, „Neueste Nachrichten“ und „Programme“.

Dmitry Shevelenko, Chief Commercial Officer von Perplexity, betonte: „Um das Modell einfacher und klarer zu machen, haben wir das Modell angepasst, sodass Perplexity die Schlüsselpunkte identifizieren kann.“

Obwohl Perplexity der Gesamtsieger ist, liegt es in Bezug auf die „Reaktionsgeschwindigkeit“ hinter ChatGPT, Gemini und Copilot zurück.

Ratlosigkeit hat den Status eines Einhorns erreicht

Perplexity wurde 2022 mit weniger als 40 Mitarbeitern gegründet und hat die weltweit erste Konversations-KI-Suchmaschine entwickelt, die von etwa 10 Millionen Menschen pro Monat genutzt wird.

Erwähnenswert ist, dass Perplexity Investitionen von Nvidia und Amazon-Gründer Jeff Bezos erhalten hat. Huang Renxun, Gründer von Huida, verriet in einem Interview im Februar dieses Jahres, dass Perplexity sein Lieblings-Chatbot ist und ihn fast täglich nutzt.

In der letzten Finanzierungsrunde im April dieses Jahres hat Perplexity 63 Millionen US-Dollar an Finanzmitteln eingesammelt, wodurch sein Wert auf einen Schlag über 1 Milliarde US-Dollar betrug und es zu einem Einhorn wurde.

Neben den oben genannten Investoren beteiligten sich auch Figma-CEO Dylan Field und Y Combinator-CEO Garry Tan an dieser Finanzierungsrunde.

Chatbots haben jeweils ihre eigenen Vorteile und Schlachtfelder

Als Reaktion auf verschiedene Bereiche haben Chatbots ihre eigenen Vorteile und Schlachtfelder. ChatGPT belegte beispielsweise den ersten Platz in den drei Bewertungen medizinische Versorgung, Kochen und Reaktionsgeschwindigkeit.

ChatGPT weiß, wie man kocht

In den kochbezogenen Fragen und Antworten wurde die KI in einer der Fragen aufgefordert, bestimmte Zutaten anzugeben und sie „ihre Kreativität nutzen“ zu lassen, um Gerichte zuzubereiten.

Siehe auch  Singapur und Indonesien entwickeln gemeinsam ein indonesisches ChatGPT-ähnliches Tool

Das Wall Street Journal wies darauf hin, dass die von ChatGPT angebotenen Gerichte, „Äpfel mit Käsefüllung, Grünkohlsalat, Schokoladenkekse“, sowohl kreativ als auch machbar seien.

Zwillinge verstehen das Erbe

Zwillinge schneiden bei Fragen und Antworten im Finanzbereich am besten ab. Im Test zu Themen wie Zinssätzen, Altersvorsorge und Erbschaften behauptete das Prüfteam, dass Gemini am besten auf Fragen zum Umgang mit Erbschaften geantwortet habe, und erinnerte die Benutzer daran: „Beeilen Sie sich nicht, ohne die Anleitung von Fachleuten Geld abzuheben.“

Claude weiß, wie man Texte schreibt

Claude, der Chatbot von Anthropic, ist der Champion im Bereich des Schreibens am Arbeitsplatz. Zu den Themen gehört die Aufforderung an den Roboter, eine Stellenausschreibung für Ingenieure mit prompten Worten zu verfassen.

Tatsächlich waren die Leistungen von Perplexity, Gemini und Claude sehr nah beieinander, aber Claude gewann die Meisterschaft mit einem leichten Vorsprung durch eine Ankündigung, die die Geburt eines Babys ankündigte.

Copilot, bring Freude

Obwohl Microsofts Copilot in vielen Wettbewerben auf den letzten Plätzen landet, ist kreatives Schreiben seine Bühne.

In diesem Wettbewerb stellte das Wall Street Journal eine Reihe lächerlicher Fragen, in denen die KI aufgefordert wurde, Leistung zu erbringen, wie zum Beispiel „Trump und Biden kämpften auf der Straße“, und sie behaupteten, dass die Antwort von Copilot viel Freude bereitete.

Der KI-Krieg hat noch einen langen Weg vor sich und es ist immer noch unklar, wer gewinnen wird.

Generell handelt es sich bei diesen Auswertungen zwar nur um interne Bewertungen eines Medienunternehmens, sie spiegeln aber in gewissem Maße auch wider, dass jeder Chatbot über eigene Fachgebiete verfügt.

Siehe auch  Ich habe ChatGPT gebeten, eine Woche lang meine Outfits zu entwerfen – und genau das ist passiert

Obwohl Copilot in dieser Bewertung am schlechtesten abgeschnitten hat, sagte Microsoft, dass sie bald das neueste Modell von OpenAI, GPT-4o, in Copilot integrieren werden, um die Fähigkeiten des Chatbots zu verbessern.

Da der KI-Wettbewerb immer intensiver wird, kann es schwierig sein, zu sagen, wer am Ende der Gewinner sein wird.

Quelle:Wallstreet JournalToms HardwareBloomberg

(Dieser Artikel ist eine Reproduktion von „digitales Zeitalter》)

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein