Wir schauen uns genauer an, was GPT-4o kann, wie man es nutzt und wie es sich von den Vorgängermodellen unterscheidet.
Inhalt
Neue Funktionen und Fähigkeiten
Multimodalität
chatgpt kann jetzt gleichzeitig mit Text, Audio, Video und Bildern arbeiten. Genau das wurde zum wichtigsten und beeindruckendsten Merkmal der neuen Version, und unten erfahren Sie, warum.
Bisher wurden bei der Kommunikation mit ChatGPT drei Modelle verwendet: eines transkribierte die Audiodaten, ein anderes verarbeitete sie und erzeugte eine Antwort und das dritte wandelte sie wieder in Sprache um. Jetzt schafft es ein Modell.
GPT-4o akzeptiert derzeit Text, Audio, Bilder und Videos (auch direkt von der Kamera) und kann Antworten in Form von Text, Audio und Bildern bereitstellen.
Reaktionszeit
Durch die Verwendung eines einzigen neuronalen Netzwerks zur Verarbeitung aller Arten von Daten ist GPT spürbar schneller. Beispielsweise kann das Programm jetzt in nur 232 Millisekunden auf Audio reagieren. Die durchschnittliche Reaktionszeit beträgt 320 Millisekunden, was in etwa der Reaktionsgeschwindigkeit einer Person in einem Gespräch entspricht. Im Vergleich dazu dauerte GPT-3.5 durchschnittlich 2,8 Sekunden und GPT-4 5,4 Sekunden.
Natürlichkeit des Gesprächs
Die oben erwähnte Multimodalität und Reaktionsgeschwindigkeit haben dazu geführt, dass Gespräche mit GPT so natürlich wirken, dass sie ein wenig einschüchternd wirken. Viele Kommentatoren haben sich bereits an den Film „She“ (2013) erinnert, in dessen Handlung sich die Hauptfigur in ein Sprachinterface verliebt. Die Zeiten der Roboter-Sprachassistenten sind vorbei: GPT-4o reagiert in menschlicher Geschwindigkeit, spricht emotional und mit glaubhaftem Tonfall, scherzt und lacht über sich selbst. Sie können ihn unterbrechen, er hört Sie und kann auf Wunsch auch langsamer oder schneller sprechen.
Integration über API
Zusätzlich zu ChatGPT selbst können Modelle der künstlichen Intelligenz von OpenAI in andere Anwendungen und Dienste eingebettet werden. GPT-4o rühmt sich damit, doppelt so schnell und halb so teuer zu sein wie GPT-4 Turbo, wenn es über eine API läuft.
Entwickler können das ChatGPT-4o-System problemlos in ihre Produkte integrieren, die über einen Cloud-Dienst eine Verbindung zur Leistung des neuronalen Netzwerks herstellen. Beispielsweise kann die aktualisierte API mit dem Chat-System des technischen Supports eines großen Unternehmens verbunden werden. Oder fügen Sie es einer benutzerdefinierten Programmierumgebung hinzu.
Sprachoptionen
GPT-4o hat die Textverarbeitung in verschiedenen Sprachen, auch in seltenen, erheblich verbessert. Dies eröffnet Benutzern auf der ganzen Welt neue Möglichkeiten. Mit dem GPT-4o-Übersetzer kann ein Kasachen mit einem Serben oder ein Perser mit einem Vertreter des Navajo-Stammes kommunizieren. Die Liste der unterstützten Sprachen ist riesig: Zusätzlich zu den Hauptsprachen gibt es ozeanische Dialekte, afrikanische, indische, Sprachen der Völker Südostasiens und weniger verbreitete europäische.
Arbeiten mit Code
Die Arbeit mit Code ist spürbar besser geworden. GPT-4o kann es beispielsweise sofort analysieren, Ihnen sagen, was es tut, und Fehler beheben.