Wir schauen uns genauer an, was GPT-4o kann, wie man es nutzt und wie es sich von den Vorgängermodellen unterscheidet.

Inhalt

Neue Funktionen und Fähigkeiten

Multimodalität

chatgpt kann jetzt gleichzeitig mit Text, Audio, Video und Bildern arbeiten. Genau das wurde zum wichtigsten und beeindruckendsten Merkmal der neuen Version, und unten erfahren Sie, warum.

Bisher wurden bei der Kommunikation mit ChatGPT drei Modelle verwendet: eines transkribierte die Audiodaten, ein anderes verarbeitete sie und erzeugte eine Antwort und das dritte wandelte sie wieder in Sprache um. Jetzt schafft es ein Modell.

GPT-4o akzeptiert derzeit Text, Audio, Bilder und Videos (auch direkt von der Kamera) und kann Antworten in Form von Text, Audio und Bildern bereitstellen.

Reaktionszeit

Durch die Verwendung eines einzigen neuronalen Netzwerks zur Verarbeitung aller Arten von Daten ist GPT spürbar schneller. Beispielsweise kann das Programm jetzt in nur 232 Millisekunden auf Audio reagieren. Die durchschnittliche Reaktionszeit beträgt 320 Millisekunden, was in etwa der Reaktionsgeschwindigkeit einer Person in einem Gespräch entspricht. Im Vergleich dazu dauerte GPT-3.5 durchschnittlich 2,8 Sekunden und GPT-4 5,4 Sekunden.

Natürlichkeit des Gesprächs

Die oben erwähnte Multimodalität und Reaktionsgeschwindigkeit haben dazu geführt, dass Gespräche mit GPT so natürlich wirken, dass sie ein wenig einschüchternd wirken. Viele Kommentatoren haben sich bereits an den Film „She“ (2013) erinnert, in dessen Handlung sich die Hauptfigur in ein Sprachinterface verliebt. Die Zeiten der Roboter-Sprachassistenten sind vorbei: GPT-4o reagiert in menschlicher Geschwindigkeit, spricht emotional und mit glaubhaftem Tonfall, scherzt und lacht über sich selbst. Sie können ihn unterbrechen, er hört Sie und kann auf Wunsch auch langsamer oder schneller sprechen.

Siehe auch  ChatGPT hatte eine bizarre Sicherheitslücke, durch die persönliche Daten verloren gingen

Integration über API

Zusätzlich zu ChatGPT selbst können Modelle der künstlichen Intelligenz von OpenAI in andere Anwendungen und Dienste eingebettet werden. GPT-4o rühmt sich damit, doppelt so schnell und halb so teuer zu sein wie GPT-4 Turbo, wenn es über eine API läuft.

Entwickler können das ChatGPT-4o-System problemlos in ihre Produkte integrieren, die über einen Cloud-Dienst eine Verbindung zur Leistung des neuronalen Netzwerks herstellen. Beispielsweise kann die aktualisierte API mit dem Chat-System des technischen Supports eines großen Unternehmens verbunden werden. Oder fügen Sie es einer benutzerdefinierten Programmierumgebung hinzu.

Sprachoptionen

GPT-4o hat die Textverarbeitung in verschiedenen Sprachen, auch in seltenen, erheblich verbessert. Dies eröffnet Benutzern auf der ganzen Welt neue Möglichkeiten. Mit dem GPT-4o-Übersetzer kann ein Kasachen mit einem Serben oder ein Perser mit einem Vertreter des Navajo-Stammes kommunizieren. Die Liste der unterstützten Sprachen ist riesig: Zusätzlich zu den Hauptsprachen gibt es ozeanische Dialekte, afrikanische, indische, Sprachen der Völker Südostasiens und weniger verbreitete europäische.

Arbeiten mit Code

Die Arbeit mit Code ist spürbar besser geworden. GPT-4o kann es beispielsweise sofort analysieren, Ihnen sagen, was es tut, und Fehler beheben.

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein