Es ist eineinhalb Jahre her, dass chatgpt eingeführt wurde, und verschiedene Sprachmodelle sind in großer Zahl entstanden, aber welches eignet sich am besten für den täglichen Gebrauch durch normale Benutzer? Kürzlich hat das Wall Street Journal einen Test mit fünf Chatbots durchgeführt und die Qualität der Antworten in verschiedenen Nutzungsszenarien bewertet.
Das Wall Street Journal nahm ChatGPT, Copilot, ins Visier. Es gibt insgesamt 5 Chatbots, Gemini, Claude und Perplexity, die jeweils in den Kategorien Medizin, Finanzen, Kochen, Schreiben am Arbeitsplatz, kreatives Schreiben, Zusammenfassung, aktuelle Nachrichten, Programme und Reaktionsgeschwindigkeit eingestuft sind und alle kostenpflichtige erweiterte Versionen verwenden.
Das Redaktionsteam entwarf eine Reihe von Aufforderungswörtern, um die Nutzungsergebnisse jedes Szenarios zu testen, bewertete sie nach Genauigkeit, Nützlichkeit und Gesamtniveau und erstellte schließlich eine Rangfolge unter verschiedenen Chatbots.
Sie betonten dies jedoch Hierbei handelt es sich nicht um eine wissenschaftliche Auswertung, sondern soll Antworten von tatsächlichen Nutzern dieser Chatbots widerspiegeln.
Bei einer Überraschung steht die Ratlosigkeit an erster Stelle
Beginnen wir mit den Ergebnissen. Es war nicht ChatGPT, das den ersten Platz in der Gesamtwertung belegte. Es handelt sich um einen gleichnamigen Chatbot, der vom Startup Perplexity ins Leben gerufen wurde gewann die Goldmedaille bei dieser „Chatbot-Olympiade“.
Die Plätze 2 bis 5 im Gesamtranking belegen jeweils ChatGPT, Gemini, Claude und Copilot.
Das bedeutet nicht, dass Perplexity andere Konkurrenten in allen Bereichen übertrifft, aber Perplexity gewann den ersten Platz in drei der neun Kategorien, nämlich „Übersicht“, „Neueste Nachrichten“ und „Programme“.
Dmitry Shevelenko, Chief Commercial Officer von Perplexity, betonte: „Um das Modell einfacher und klarer zu machen, haben wir das Modell angepasst, sodass Perplexity die Schlüsselpunkte identifizieren kann.“
Obwohl Perplexity der Gesamtsieger ist, liegt es in Bezug auf die „Reaktionsgeschwindigkeit“ hinter ChatGPT, Gemini und Copilot zurück.
Ratlosigkeit hat den Status eines Einhorns erreicht
Perplexity wurde 2022 mit weniger als 40 Mitarbeitern gegründet und hat die weltweit erste Konversations-KI-Suchmaschine entwickelt, die von etwa 10 Millionen Menschen pro Monat genutzt wird.
Erwähnenswert ist, dass Perplexity Investitionen von Nvidia und Amazon-Gründer Jeff Bezos erhalten hat. Huang Renxun, Gründer von Huida, verriet in einem Interview im Februar dieses Jahres, dass Perplexity sein Lieblings-Chatbot ist und ihn fast täglich nutzt.
In der letzten Finanzierungsrunde im April dieses Jahres hat Perplexity 63 Millionen US-Dollar an Finanzmitteln eingesammelt, wodurch sein Wert auf einen Schlag über 1 Milliarde US-Dollar betrug und es zu einem Einhorn wurde.
Neben den oben genannten Investoren beteiligten sich auch Figma-CEO Dylan Field und Y Combinator-CEO Garry Tan an dieser Finanzierungsrunde.
Chatbots haben jeweils ihre eigenen Vorteile und Schlachtfelder
Als Reaktion auf verschiedene Bereiche haben Chatbots ihre eigenen Vorteile und Schlachtfelder. ChatGPT belegte beispielsweise den ersten Platz in den drei Bewertungen medizinische Versorgung, Kochen und Reaktionsgeschwindigkeit.
ChatGPT weiß, wie man kocht
In den kochbezogenen Fragen und Antworten wurde die KI in einer der Fragen aufgefordert, bestimmte Zutaten anzugeben und sie „ihre Kreativität nutzen“ zu lassen, um Gerichte zuzubereiten.
Das Wall Street Journal wies darauf hin, dass die von ChatGPT angebotenen Gerichte, „Äpfel mit Käsefüllung, Grünkohlsalat, Schokoladenkekse“, sowohl kreativ als auch machbar seien.
Zwillinge verstehen das Erbe
Zwillinge schneiden bei Fragen und Antworten im Finanzbereich am besten ab. Im Test zu Themen wie Zinssätzen, Altersvorsorge und Erbschaften behauptete das Prüfteam, dass Gemini am besten auf Fragen zum Umgang mit Erbschaften geantwortet habe, und erinnerte die Benutzer daran: „Beeilen Sie sich nicht, ohne die Anleitung von Fachleuten Geld abzuheben.“
Claude weiß, wie man Texte schreibt
Claude, der Chatbot von Anthropic, ist der Champion im Bereich des Schreibens am Arbeitsplatz. Zu den Themen gehört die Aufforderung an den Roboter, eine Stellenausschreibung für Ingenieure mit prompten Worten zu verfassen.
Tatsächlich waren die Leistungen von Perplexity, Gemini und Claude sehr nah beieinander, aber Claude gewann die Meisterschaft mit einem leichten Vorsprung durch eine Ankündigung, die die Geburt eines Babys ankündigte.
Copilot, bring Freude
Obwohl Microsofts Copilot in vielen Wettbewerben auf den letzten Plätzen landet, ist kreatives Schreiben seine Bühne.
In diesem Wettbewerb stellte das Wall Street Journal eine Reihe lächerlicher Fragen, in denen die KI aufgefordert wurde, Leistung zu erbringen, wie zum Beispiel „Trump und Biden kämpften auf der Straße“, und sie behaupteten, dass die Antwort von Copilot viel Freude bereitete.
Der KI-Krieg hat noch einen langen Weg vor sich und es ist immer noch unklar, wer gewinnen wird.
Generell handelt es sich bei diesen Auswertungen zwar nur um interne Bewertungen eines Medienunternehmens, sie spiegeln aber in gewissem Maße auch wider, dass jeder Chatbot über eigene Fachgebiete verfügt.
Obwohl Copilot in dieser Bewertung am schlechtesten abgeschnitten hat, sagte Microsoft, dass sie bald das neueste Modell von OpenAI, GPT-4o, in Copilot integrieren werden, um die Fähigkeiten des Chatbots zu verbessern.
Da der KI-Wettbewerb immer intensiver wird, kann es schwierig sein, zu sagen, wer am Ende der Gewinner sein wird.
Quelle:Wallstreet Journal、Toms Hardware、Bloomberg
(Dieser Artikel ist eine Reproduktion von „digitales Zeitalter》)