chatgpt can now see, hear and speak“>

OpenAI

Als OpenAI im März GPT-4 herausbrachte, war einer seiner größten Vorteile seine multimodalen Fähigkeiten, die es ChatGPT ermöglichen würden, Bildeingaben zu akzeptieren. Allerdings war die multimodale Fähigkeit noch nicht einsatzbereit – bis jetzt.

Am Montag, OpenAI angekündigt dass ChatGPT nun „sehen, hören und sprechen“ könne, was auf die neuen Fähigkeiten des beliebten Chatbots anspielt, sowohl Bild- als auch Spracheingaben zu empfangen und in Sprachgesprächen zu antworten.

Auch: Amazon erhöht den Einsatz generativer KI mit einer 4-Milliarden-Dollar-Investition in Anthropic

Die Bildeingabefunktion kann hilfreich sein, um Hilfe bei Dingen zu erhalten, die Sie sehen können, z. B. beim Lösen einer mathematischen Aufgabe auf einem Arbeitsblatt, beim Ermitteln des Namens einer Pflanze oder beim Betrachten der Artikel in Ihrer Speisekammer und beim Bereitstellen von Rezepten.

In allen oben genannten Fällen müsste ein Benutzer lediglich ein Foto von dem machen, was er gerade sieht, und die Frage hinzufügen, auf die er eine Antwort haben möchte. OpenAI gibt bekannt, dass die Bildverständnisfunktion auf GPT-3.5 und GPT-4 basiert.

Die Spracheingabe- und -ausgabefunktion verleiht ChatGPT die gleiche Funktionalität wie ein Sprachassistent. Um ChatGPT nun um eine Aufgabe zu bitten, müssen Benutzer nur noch ihre Stimme verwenden. Sobald Ihre Anfrage verarbeitet wurde, wird Ihnen die Antwort verbal mitgeteilt.

In der von OpenAI geteilten Demo bittet ein Benutzer ChatGPT mündlich, eine Gute-Nacht-Geschichte über einen Igel zu erzählen. ChatGPT reagiert, indem es eine Geschichte erzählt, ähnlich wie Sprachassistenten wie Amazons Alexa funktionieren.

Auch: Warum Open Source die Wiege der künstlichen Intelligenz ist

Der Wettlauf um KI-gestützte KI-Assistenten ist eröffnet, denn erst letzte Woche gab Amazon bekannt, dass es Alexa mit einem neuen LLM aufrüsten würde, das ihr ChatGPT-ähnliche Fähigkeiten verleihen würde, was sie im Wesentlichen zu einer freihändigen KI-Assistentin machen würde. Die Sprachintegration von ChatGPT in seine Plattform erzielt das gleiche Endergebnis.

Um die Sprachfunktion zu unterstützen, verwendet OpenAI Whisper, sein Spracherkennungssystem, um die gesprochenen Wörter eines Benutzers in Text umzuwandeln, sowie ein neues Text-to-Speech-Modell, das mit nur wenigen Sekunden Sprache aus Text menschenähnliche Audiodaten erzeugen kann.

Um alle fünf ChatGPT-Stimmen zu erstellen, aus denen Benutzer auswählen können, arbeitete das Unternehmen mit professionellen Synchronsprechern zusammen.

Sowohl die Sprach- als auch die Bildfunktionen werden in den nächsten zwei Wochen nur für ChatGPT Plus und Enterprise verfügbar sein. OpenAI sagt jedoch, dass es bald darauf den Zugriff auf die Funktion für andere Benutzer, wie z. B. Entwickler, erweitern wird.

Außerdem: Meine beiden Lieblings-ChatGPT-Plus-Plugins und die bemerkenswerten Dinge, die ich damit machen kann

Wenn Sie ein Plus- oder Enterprise-Benutzer sind, müssen Sie zum Zugriff auf die Bildeingabefunktion lediglich auf die Fotoschaltfläche in der Chat-Oberfläche tippen und ein Bild hochladen. Um auf die Sprachfunktion zuzugreifen, gehen Sie zu Einstellungen

Bing Chat, das von GPT-4 unterstützt wird, unterstützt Bild- und Spracheingaben und ist völlig kostenlos zu nutzen. Wenn Sie diese Funktionen also ausprobieren möchten, aber noch keinen Zugriff darauf haben, ist Bing Chat eine gute Alternative.

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein