OpenAI
Als OpenAI im März GPT-4 herausbrachte, war einer seiner größten Vorteile seine multimodalen Fähigkeiten, die es ChatGPT ermöglichen würden, Bildeingaben zu akzeptieren. Allerdings war die multimodale Fähigkeit noch nicht einsatzbereit – bis jetzt.
Am Montag, OpenAI angekündigt dass ChatGPT nun „sehen, hören und sprechen“ könne, was auf die neuen Fähigkeiten des beliebten Chatbots anspielt, sowohl Bild- als auch Spracheingaben zu empfangen und in Sprachgesprächen zu antworten.
Auch: Amazon erhöht den Einsatz generativer KI mit einer 4-Milliarden-Dollar-Investition in Anthropic
Die Bildeingabefunktion kann hilfreich sein, um Hilfe bei Dingen zu erhalten, die Sie sehen können, z. B. beim Lösen einer mathematischen Aufgabe auf einem Arbeitsblatt, beim Ermitteln des Namens einer Pflanze oder beim Betrachten der Artikel in Ihrer Speisekammer und beim Bereitstellen von Rezepten.
In allen oben genannten Fällen müsste ein Benutzer lediglich ein Foto von dem machen, was er gerade sieht, und die Frage hinzufügen, auf die er eine Antwort haben möchte. OpenAI gibt bekannt, dass die Bildverständnisfunktion auf GPT-3.5 und GPT-4 basiert.
Die Spracheingabe- und -ausgabefunktion verleiht ChatGPT die gleiche Funktionalität wie ein Sprachassistent. Um ChatGPT nun um eine Aufgabe zu bitten, müssen Benutzer nur noch ihre Stimme verwenden. Sobald Ihre Anfrage verarbeitet wurde, wird Ihnen die Antwort verbal mitgeteilt.
In der von OpenAI geteilten Demo bittet ein Benutzer ChatGPT mündlich, eine Gute-Nacht-Geschichte über einen Igel zu erzählen. ChatGPT reagiert, indem es eine Geschichte erzählt, ähnlich wie Sprachassistenten wie Amazons Alexa funktionieren.
Auch: Warum Open Source die Wiege der künstlichen Intelligenz ist
Der Wettlauf um KI-gestützte KI-Assistenten ist eröffnet, denn erst letzte Woche gab Amazon bekannt, dass es Alexa mit einem neuen LLM aufrüsten würde, das ihr ChatGPT-ähnliche Fähigkeiten verleihen würde, was sie im Wesentlichen zu einer freihändigen KI-Assistentin machen würde. Die Sprachintegration von ChatGPT in seine Plattform erzielt das gleiche Endergebnis.
Um die Sprachfunktion zu unterstützen, verwendet OpenAI Whisper, sein Spracherkennungssystem, um die gesprochenen Wörter eines Benutzers in Text umzuwandeln, sowie ein neues Text-to-Speech-Modell, das mit nur wenigen Sekunden Sprache aus Text menschenähnliche Audiodaten erzeugen kann.
Um alle fünf ChatGPT-Stimmen zu erstellen, aus denen Benutzer auswählen können, arbeitete das Unternehmen mit professionellen Synchronsprechern zusammen.
Sowohl die Sprach- als auch die Bildfunktionen werden in den nächsten zwei Wochen nur für ChatGPT Plus und Enterprise verfügbar sein. OpenAI sagt jedoch, dass es bald darauf den Zugriff auf die Funktion für andere Benutzer, wie z. B. Entwickler, erweitern wird.
Außerdem: Meine beiden Lieblings-ChatGPT-Plus-Plugins und die bemerkenswerten Dinge, die ich damit machen kann
Wenn Sie ein Plus- oder Enterprise-Benutzer sind, müssen Sie zum Zugriff auf die Bildeingabefunktion lediglich auf die Fotoschaltfläche in der Chat-Oberfläche tippen und ein Bild hochladen. Um auf die Sprachfunktion zuzugreifen, gehen Sie zu Einstellungen
Bing Chat, das von GPT-4 unterstützt wird, unterstützt Bild- und Spracheingaben und ist völlig kostenlos zu nutzen. Wenn Sie diese Funktionen also ausprobieren möchten, aber noch keinen Zugriff darauf haben, ist Bing Chat eine gute Alternative.