[ad_1]
Kommen Sie einfach raus, nachdem Sie lange gerufen wurden! OpenAI kündigte schließlich an, dass es ChatGPT um multimodale Funktionen erweitern wird, damit es vom Benutzer bereitgestellte Informationen verstehen kannStimme und Bilder. Es wird erwartet, dass das Spracherlebnis dem herkömmlicher virtueller Assistentendienste ähnelt. Benutzer müssen nur eine Taste drücken, um zu sprechen, und ChatGPT wandelt ihn in Text um und übergibt ihn zur Verarbeitung an das große Sprachmodell. Nachdem Sie die Antwort erhalten haben, wird der Text in Sprache umgewandelt und ChatGPT spricht ihn dann vor.
OpenAI ist jedoch davon überzeugt, dass sein Whisper-Modell ein besseres Sprach-zu-Text-Erlebnis bieten kann. Und sie haben auch eine neue Text-to-Speech-Lösung vorbereitet, die „nur Text oder nur ein paar Sekunden Sprachproben benötigt“, um menschenähnliche Stimmen zu erzeugen. Zu diesem Zeitpunkt hat der Beamte fünf Stimmoptionen für ChatGPT vorbereitet, und das Modell dahinter wird voraussichtlich in Zukunft in weiteren Bereichen nützlich sein (z. B. beim Übersetzen von Podcasts auf Spotify und beim Wiederherstellen der Stimme des Autors).
Was den Bildteil betrifft, antwortet ChatGPT auf der Grundlage seines eigenen Verständnisses seines Inhalts (und nicht der herkömmlichen Bildsuche). Während der Nutzung können Nutzer neben ergänzenden Erklärungen in Text oder Sprache auch Bilder direkt mit Anmerkungen versehen. Es ist erwähnenswert, dass OpenAI aus Gründen der Genauigkeit und des Datenschutzes bewusst „die Fähigkeit einschränkt, eine Person zu analysieren und ihre Einstellungen ihnen gegenüber direkt auszudrücken“.
Die neuen Sprach- und Bildfunktionen werden in den nächsten zwei Wochen zunächst für ChatGPT Plus- und Unternehmensbenutzer verfügbar sein und ihren Anwendungsbereich schrittweise erweitern.
[ad_2]