OpenAI hat den Einsatz in der hart umkämpften Welt der generativen künstlichen Intelligenz durch die Einführung eines neuen Modells erhöht, von dem es hofft, dass es mehr Benutzer für seine Plattform anlockt und alle Herausforderer abwehrt.
GPT-4o ist eine aktualisierte Version der zugrunde liegenden Technologie für große Sprachmodelle, die chatgpt antreibt. Letzte Woche wurde gemunkelt, dass es als Suchmaschine eingeführt werden soll, um google herauszufordern, aber Reuters berichtete, dass OpenAI dies verzögert habe.
Sam Altman, CEO von OpenAI, bestritt jegliche Veröffentlichungen – nur um auf X zu posten, dass das Unternehmen „hart an einigen neuen Dingen gearbeitet hat, von denen wir glauben, dass die Leute sie lieben werden“.
Das „o“ im Namen steht für „omni“ und das in Kalifornien ansässige Unternehmen preist GPT-4o als etwas für alle an, was Sinn macht, da „omni“ „alle“ oder „alles“ bedeutet – will OpenAI allgegenwärtig sein? in unseren Leben?
Was ist GPT-4o?
Kurze Antwort: GPT-4o ist laut OpenAI sein „neues Flaggschiffmodell, das in Echtzeit über Audio, Bild und Text nachdenken kann“.
Kürzere Antwort: Es ist das schnellste KI-Modell von OpenAI.
Der Name „Omni“ beziehe sich auf „einen Schritt hin zu einer viel natürlicheren Mensch-Computer-Interaktion“, sagte OpenAI am Montag in einem Blogbeitrag.
Es ist außerdem von Natur aus multimodal, d. h. es kann jede beliebige Kombination aus Text, Audio und Bild als Eingabe akzeptieren und auch jede beliebige Kombination aus Text, Audio und Bild als Ausgabe generieren.
Wie schnell ist GPT-4o?
OpenAI behauptet, dass GPT-4o laut mehreren Studien in nur 232 Millisekunden auf Audioeingaben reagieren kann, mit einem Durchschnitt von 320 Millisekunden, was der menschlichen Reaktionszeit in einem Gespräch ähnelt.
Folglich erfordert GPT-4o die Verwendung von weniger Tokens in Sprachen, der Grundeinheit in der KI, die die Länge von Text berechnet und Satzzeichen und Leerzeichen enthalten kann. Die Anzahl der Token variiert von Sprache zu Sprache.
Zu den von OpenAI hervorgehobenen Sprachen, die mit GPT-4o weniger Token verwenden, gehören Arabisch (von 53 auf 26), Gujarati (145 auf 33), Hindi (90 auf 31), Koreanisch (45 auf 27) und Chinesisch (34 auf 24). .
Aus Gründen der Perspektive können wir einige Vergleiche mit einer Studie von Robert Miller aus dem Jahr 1968 anstellen – Reaktionszeit bei Gesprächstransaktionen zwischen Mensch und Computer – Darin wurden die drei Größenordnungen der Reaktionsfähigkeit von Computer-Mainframes detailliert beschrieben.
Die Untersuchung ergab, dass eine Reaktionszeit von 100 Millisekunden als augenblicklich wahrgenommen wird, während eine Sekunde oder weniger schnell genug ist, damit Benutzer das Gefühl haben, frei mit den Informationen zu interagieren. Eine Reaktionszeit von mehr als 10 Sekunden würde die Aufmerksamkeit des Benutzers vollständig verlieren.
Wie funktioniert GPT-4o?
Die einfachste Antwort ist, dass OpenAI den Prozess der Umwandlung von Eingaben in Ausgaben vereinfacht hat.
In den früheren KI-Modellen von OpenAI wurde der Sprachmodus verwendet, um mit ChatGPT mit Latenzen von durchschnittlich 2,8 Sekunden (GPT-3,5) und 5,4 Sekunden (GPT-4) zu sprechen. Im Sprachmodus wurden drei separate Modelle verwendet: Ein einfaches Modell transkribiert Audio in Text, GPT-3.5 oder GPT-4 nimmt Text auf und gibt ihn aus, und eine dritte einfache Version wandelt diesen Text wieder in Audio um.
„Dieser Prozess bedeutet, dass die Hauptintelligenzquelle, GPT-4, viele Informationen verliert – sie kann Töne, mehrere Sprecher oder Hintergrundgeräusche nicht direkt beobachten und sie kann kein Lachen, Singen oder Emotionen ausdrücken.“ “ OpenAI sagte.
Aber mit GPT-4o konnte OpenAI alle diese Funktionen in einem einzigen Modell mit End-to-End-Funktionen für Text, Bild und Audio zusammenführen und so den Zeitaufwand und die verarbeiteten Informationen erheblich reduzieren.
„Alle Ein- und Ausgaben werden von demselben neuronalen Netzwerk verarbeitet“, sagte OpenAI. Ein neuronales Netzwerk ist eine KI-Technik, die Computern beibringt, Daten ähnlich wie das menschliche Gehirn zu verarbeiten.
Dennoch sagte OpenAI, es kratze „immer noch nur an der Oberfläche“ der GPT-4o-Fähigkeiten und -Einschränkungen, da es ihr erstes Modell sei, das alle diese Modalitäten vereint.
Was kann GPT-4o nicht Tun?
Apropos Einschränkungen: OpenAI hat „mehrere“ davon im gesamten GPT-4o-Modell anerkannt, darunter Inkonsistenzen bei den Antworten, die in einem Blooper-Reel dargestellt wurden. Es zeigte sogar, wie geschickt GPT-4o im Sarkasmus sein kann.
Darüber hinaus sagte OpenAI, dass es das Verhalten des Modells nach dem Training weiter verfeinert – was von entscheidender Bedeutung ist, um Sicherheitsbedenken auszuräumen, einem zentralen Knackpunkt in der modernen KI.
Das Unternehmen sagte, es habe neue Sicherheitssysteme geschaffen, die als Leitplanken für Sprachausgaben dienen sollen, und habe das Modell zusätzlich mit mehr als 70 Experten auf den Gebieten Sozialpsychologie, Voreingenommenheit, Fairness und Fehlinformation getestet, um mögliche Risiken zu identifizieren.
„Wir werden weiterhin neue Risiken abmildern, sobald sie entdeckt werden. Wir sind uns bewusst, dass die Audiomodalitäten von GPT-4o eine Vielzahl neuartiger Risiken bergen“, sagte OpenAI.
Wie viel kostet GPT-4o?
Gute Nachrichten – es ist für alle Benutzer kostenlos, wobei zahlende Benutzer „bis zum Fünffachen der Kapazitätsgrenzen“ ihrer kostenlosen Kollegen genießen, sagte Mira Murati, Chief Technology Officer von OpenAI, in der Enthüllungspräsentation.
Wenn Sie jedoch kein zahlender OpenAI-Benutzer sind, werden Ihnen 5 US-Dollar bzw. 15 US-Dollar für eine Million Input- und Output-Tokens berechnet.
Die Ermöglichung der kostenlosen Nutzung von GPT-4o dürfte OpenAI gute Dienste leisten und auch die anderen kostenpflichtigen Angebote des Unternehmens ergänzen.
Im August startete OpenAI seinen ChatGPT Enterprise-Monatsplan, dessen Preis je nach Benutzeranforderungen variiert. Es ist die dritte Stufe nach dem kostenlosen Basisdienst und dem Plus-Plan für 20 US-Dollar pro Monat.
Das Unternehmen startete im Januar seinen Online-ChatGPT-Store, der Benutzern Zugriff auf mehr als drei Millionen benutzerdefinierte Versionen von GPTs bietet, die von OpenAI-Partnern und seiner Community entwickelt wurden.
OpenAI hofft, mehr Benutzer anzulocken, da der Wettbewerb in der Welt der generativen KI zunimmt – und es gibt viel zu erwarten.
Wie schlägt sich OpenAI derzeit im Vergleich zu seinen größten Konkurrenten?
Der Schritt von OpenAI, ein neues, kostenloses und schnelleres großes Sprachmodell einzuführen, ist ein Zeichen dafür, dass das Unternehmen im Bereich der generativen KI alle Hände voll zu tun hat.
Google, wohl sein größter Konkurrent in diesem Bereich, verfügt über Gemini, das als erstes KI-Modell menschliche Experten im Bereich des massiven Multitasking-Sprachverständnisses schlug, einer der weit verbreiteten Methoden zum Testen des Wissens und der Problemlösungsfähigkeiten von KI.
Auf Gemini kann mit dem Google One AI Premium-Plan für 19,99 US-Dollar pro Monat zugegriffen werden, der 2 TB Speicherplatz, 10 % Rückerstattung von im Google Store getätigten Einkäufen und weitere Funktionen in Gmail, Google Docs, Google Slides und Google Meet umfasst.
Im Februar wurde Gemma auf den Markt gebracht, das Entwicklern und Forschern beim „verantwortungsvollen Aufbau von KI“ helfen soll und eher für bescheidene Aufgaben wie einfache Chatbots oder Zusammenfassungsaufgaben gedacht ist.
Anthropic brachte unterdessen im März Claude 3 auf den Markt – seine direkte Herausforderung beim Marktführer für generative KI, OpenAI.
Das von Google selbst und Amazon unterstützte Unternehmen verfügt über drei Stufen – Haiku, Sonnet und Opus – die jeweils wachsende Funktionen bieten, die den Bedürfnissen der Benutzer gerecht werden.
Haiku kostet 0,25 US-Dollar pro Million Token (MTok) für die Eingabe und 1,25 US-Dollar für die Ausgabe, während Sonnet 3 US-Dollar und 15 US-Dollar kostet. Opus ist mit 15 und 75 US-Dollar am teuersten.
Zum Vergleich: Der GPT-4 Turbo von OpenAI kostet 10 US-Dollar für die Eingabe und 30 US-Dollar für die Ausgabe und verfügt außerdem über ein kleineres Kontextfenster von 128.000 MTok.
Microsoft, der größte Unterstützer von OpenAI, verlangt 20 US-Dollar pro Monat für seinen Copilot-Pro-Dienst, der eine schnellere Leistung und „alles“, was der Dienst bietet, garantiert. Wenn Sie nicht bereit sind zu zahlen, gibt es eine kostenlose Copilot-Stufe, die natürlich über eingeschränkte Funktionen verfügt.
Auch regionale Einheiten nehmen die Spitzenreiter ins Visier: Am Montag stellte das Technology Innovation Institute in Abu Dhabi die zweite Iteration seines großen Sprachmodells Falcon 2 vor, um mit den von Meta, Google und OpenAI entwickelten Modellen zu konkurrieren.
Ebenfalls am Montag startete Core42, eine Einheit des Abu Dhabi-Unternehmens für künstliche Intelligenz und Cloud G42, einen zweisprachigen Chatbot auf Arabisch und Englisch, der in den Vereinigten Arabischen Emiraten entwickelt wurde: Jais Chat. Es kann kostenlos heruntergeladen und auf Apples iPhones genutzt werden.
Aktualisiert: 14. Mai 2024, 10:28 Uhr