Im Mai dieses Jahres veröffentlichte OpenAI sein neues Spitzenmodell GPT-4o (das „o“ steht für „omni“), das die Audioverständnisfähigkeiten des Modells hervorhob. Das GPT-4o-Modell kann im Durchschnitt 320 Millisekunden auf Audioeingaben reagieren, was der Reaktion von Menschen in einem typischen Gespräch ähnelt. OpenAI gab außerdem bekannt, dass die Sprachmodusfunktion von chatgpt die Audiofunktionen des GPT-4o-Modells nutzen wird, um Benutzern ein nahtloses Sprachgesprächserlebnis zu bieten.
Das OpenAI-Team hat einen Artikel geschrieben, in dem die Sprachfunktion von GPT-4o vorgestellt wird:
„Mit GPT-4o haben wir ein einziges neues Modell durchgängig über Text, Bild und Audio trainiert, was bedeutet, dass alle Ein- und Ausgaben von demselben neuronalen Netzwerk verarbeitet werden. Da GPT-4o unser erstes Modell ist, das all dies beherrscht.“ Modelle werden kombiniert, daher befinden wir uns noch in einem frühen Stadium der Erkundung dessen, was das Modell leisten kann und wo seine Grenzen liegen.“
Im Juni dieses Jahres kündigte OpenAI an, dass der erweiterte Sprachmodus, der ursprünglich Ende Juni für eine kleine Anzahl von ChatGPT Plus-Benutzern eingeführt werden sollte, um einen Monat verzögert würde. OpenAI erwähnte, dass mehr Zeit benötigt wird, um die Fähigkeit des Modus zu verbessern, bestimmte Inhalte zu erkennen und abzulehnen. Darüber hinaus bereitet es seine Infrastruktur auf die Skalierung für Millionen von Benutzern vor und behält gleichzeitig die Reaktionsfähigkeit in Echtzeit bei.
Heute bestätigte Sam Altman, CEO von OpenAI, über X, dass die Alpha-Version des Sprachmodus nächste Woche für ChatGPT Plus-Benutzer verfügbar sein wird.
Der aktuelle Sprachmodus von ChatGPT ist aufgrund der erheblichen Latenz von durchschnittlich 2,8 Sekunden (GPT-3,5) und 5,4 Sekunden (GPT-4) nicht intuitiv. Der kommende erweiterte Sprachmodus auf Basis von GPT-4o ermöglicht ChatGPT-Benutzern nahtlose Gespräche ohne Verzögerung.
In diesem Zusammenhang hat OpenAI heute sein lang erwartetes Websucherlebnis vorgestellt – SearchGPT. SearchGPT ist derzeit nur ein Prototyp und bietet KI-Suchfunktionen, die Ihnen schnelle und zeitnahe Antworten aus klaren, relevanten Quellen liefern.