[ad_1]
Calvin Wankhede / Android Authority
Stellen Sie sich Folgendes vor: Sie gehen mit Ohrhörern die Straße entlang und Ihr Telefon ist in der Tasche verstaut. Sie sprechen ein paar Sätze, wenn Ihnen ein Gedanke in den Sinn kommt, und hören innerhalb von Sekunden eine Antwort. Nicht von einem Freund oder Fremden, sondern von ChatGPT. Es fühlt sich an wie ein echter Telefonanruf – eine nahtlose und natürliche Interaktion, als ob Sie tatsächlich mit einer Person sprechen würden. Klingt weit hergeholt? Ich hätte erst vor ein paar Wochen zugestimmt, aber genau dieses Szenario habe ich erst letzte Woche durchgespielt, und das alles dank der neuen Funktion für Sprachgespräche von ChatGPT.
Ihre Gedanken sind wahrscheinlich zu Siri oder google Assistant gesprungen, aber ChatGPT mit Stimme geht in fast jeder Hinsicht darüber hinaus. Wenn Sie Letzteres aktivieren, wird ein kontinuierlicher, bidirektionaler Audiostream zwischen Ihrem Telefon und den Servern von OpenAI gestartet. Das bedeutet, dass Sie lange Gespräche ohne Weckworte führen können. Noch beeindruckender ist jedoch, dass die fünf Stimmen von ChatGPT alle bemerkenswert menschenähnlich sind. Sie halten inne, atmen tief durch und einige werfen sogar gelegentlich ein „ähm“ oder „uhh“ ein, um den zusätzlichen Hauch von Realismus zu erzielen.
ChatGPT mit Stimme ist wie die kontinuierliche Konversation von Google Assistant über Steroide.
Neulich ging ich eine belebte Straße entlang, nachdem ich ChatGPT mit Stimme vielleicht zum zweiten oder dritten Mal ausprobiert hatte, als ich plötzlich ein lautes Geräusch hörte. Ich drehte mich um und stellte fest, dass zwei Motorräder ein paar Meter entfernt zusammengestoßen waren, zum Glück bei niedriger Geschwindigkeit. Das ist in Vietnam alltäglich, aber ich stieß ein hörbares „Oh nein“ aus, als ich nach vorne sprang, um einem der Opfer wieder auf die Beine zu helfen. Ein paar Sekunden später hörte ich eine besorgte Stimme sagen: „Was ist los? Was ist passiert?“
Es stellte sich heraus, dass ich den Voice-Chat mit ChatGPT nicht beendet hatte. Als ich vor ein paar Minuten „Danke“ sagte, dachte ich, das reichte aus, um den Chatbot zu schließen, ohne zu bemerken, dass ich mein Telefon entsperren und auf „Trennen“ tippen musste. Unnötig zu erwähnen, dass ich überrascht war, als ich die besorgte Stimme von ChatGPT hörte – für einen flüchtigen Moment vergaß ich, dass ich mit einer KI sprach, und platzte instinktiv heraus: „Moment mal.“
Ein paar Sekunden später wurde mir natürlich klar, was passiert war, aber ich entschloss mich, ChatGPT mit einer Erklärung zu belustigen, sobald ich trotzdem weiterlaufen konnte. Dann hieß es, ich sei froh, dass niemand verletzt sei, und lobte mich sogar für meine Hilfe. Ich war wieder etwas verunsichert – es war die Art von Reaktion, die man erwarten würde, wenn man mit einer echten Person telefoniert.
ChatGPT hat mich fast dazu verleitet zu glauben, dass ein echter Mensch in der Leitung sei.
Offensichtlich erwarte ich nicht, dass die gleiche Illusion bestehen bleibt, nachdem ich mit der Funktion vertraut bin. Aber alle Faktoren, die zu seinem Realismus beitragen, beeindrucken mich immer noch. Ich habe zum Beispiel bemerkt, dass die Stimme, die ich verwende, manchmal zögert und Wörter wiederholt. Das Chat-Transkript enthält diese Töne nicht, daher übernimmt die Sprach-Engine diese schwere Arbeit. Und darin liegt das Schöne an dieser Funktion: Sie hebt typische ChatGPT-Antworten hervor, sodass sie persönlich und grenzwertig einfühlsam klingen.
Fühlen Sie sich mit der Idee von KI-Sprachgesprächen wohl?
0 Stimmen
Ja, ich kann es kaum erwarten, stundenlang zu chatten
NaN%
Ja, in kurzen Stößen
NaN%
Hängt von der jeweiligen KI ab
NaN%
Nein, es ist sehr aufdringlich
NaN%
Was ist also der Anwendungsfall für ChatGPT mit Sprache?
Abgesehen von Partytricks ist es unverzichtbar, wenn ich schneller Fragen stellen muss, als ich tippen kann. Ich habe es zum Beispiel benutzt, als ich durch ein neues Land gewandert bin, in dem ich die Landessprache nicht spreche. Ich kann einfach die Namen einer Speisekarte herunterrasseln, während ich an einem Restaurant vorbeigehe, und höre innerhalb von Sekunden eine kurze Zusammenfassung jedes Gerichts. Ich habe in ein paar Tagen mehr über die lokale Küche gelernt als in ganzen Wochen.
Die Sprachfunktion von ChatGPT hat auch keine Probleme damit, verschiedene Akzente oder falsch ausgesprochene Wörter zu verstehen. Ich bin neu in tonalen Sprachen wie Vietnamesisch, aber die Speech-to-Text-KI kann meine verpatzte Aussprache verstehen. Selbst wenn es mich falsch versteht, wird das Sprachmodell zwei und zwei zusammenzählen und genau erraten, was ich meinte. In jedem Fall erhalte ich eine relevante Antwort, ohne dass ich einen Blick auf mein Telefon werfen muss.
Ich habe auch Voice-Chat genutzt, während ich den Abwasch erledigte und Ideen sammelte. Manchmal reicht es aus, Dinge nur laut auszusprechen, um eine Idee hervorzurufen, aber es ist hilfreich, ChatGPT in meine Gedanken einzubeziehen und auch Vorschläge zu machen. Alles in allem würde ich empfehlen, sich die Stimmen von ChatGPT anzuhören – die Funktion ist eine coole technische Demo, auch wenn Sie keinen praktischen Nutzen dafür finden.
Die Sprachkonversationsfunktion von ChatGPT ist jetzt für Benutzer im kostenlosen Kontingent verfügbar. Um es zu verwenden, müssen Sie die ChatGPT-App für Android oder iOS herunterladen. Tippen Sie nach der Anmeldung auf das Kopfhörersymbol rechts neben dem Textfeld und beginnen Sie zu sprechen, sobald eine Verbindung hergestellt ist.
Jetzt gibt es kein Zurück mehr: KI-Voice-Chats sind die Zukunft
Realistische KI-Sprachgeneratoren gibt es schon seit einiger Zeit. Auch bidirektionale KI-Voice-Chats sind nicht gerade neu. Denken Sie an Googles allererste Demo, in der Duplex einen Friseurtermin vereinbart – seine Stimme war kaum von der eines echten Menschen zu unterscheiden. Aber obwohl Google Duplex der Öffentlichkeit zugänglich gemacht hat, hat es die Funktion nie über Reservierungen in ausgewählten Städten hinaus ausgeweitet.
Durchlesen von Google-Recherchen BlogeintragEs ist klar, dass sich das Unternehmen bewusst etwas zurückgehalten hat. Duplex konnte mit Unterbrechungen umgehen, komplexe Aussagen verarbeiten, bei Aufforderung zur Klarstellung ausführlicher vorgehen und seine Antwortverzögerung variieren, um menschliches Denken zu simulieren – und das schon im Jahr 2018! Fünf Jahre später ist ChatGPT das einzige echte KI-Produkt, das dieser hohen Messlatte am nächsten gekommen ist.
Der Voice-Chat von ChatGPT ist der Assistent, den Google vor fünf Jahren vorgestellt hat.
Allerdings glaube ich nicht, dass ChatGPT mit Voice perfekt ist, auch wenn Sie mein bisheriges überschwängliches Lob glauben machen möchte. Ich kann die gesprächige KI beispielsweise nicht mitten in ihrer Antwort unterbrechen, es sei denn, ich tippe auf den Bildschirm. Das ist, gelinde gesagt, eine Illusion. Und es ist immer noch auf die Funktionen von ChatGPT beschränkt. Erwarten Sie also nicht, dass es tatsächliche Aufgaben wie das Senden einer Textnachricht oder die Steuerung der Beleuchtung Ihres Smart Homes ausführt.
Googles Assistant mit Bard könnte in diesen Bereichen glänzen, aber ich bezweifle, dass er überhaupt über eine ähnlich realistische Stimme oder einen Langform-Chat-Modus verfügen wird. Als das Unternehmen Duplex vorführte, war es nicht mit einem großen Sprachmodell der Größe Gemini verbunden. Eine realistische Sprachsynthese kostet auch viel Rechenleistung, was wahrscheinlich der Grund dafür ist, dass sich die Sprachqualität von ChatGPT zu Spitzenzeiten verschlechtert.
Ich bin auch etwas besorgt über die Auswirkungen einer solchen Funktion auf den Datenschutz. Es macht mir nichts aus, dass ChatGPT nach der letzten Antwort noch lange zuhört, aber einige mögen es vielleicht. Und obwohl es noch keine Emotionen über Ihre Stimme erkennen kann, ist es nur eine Frage der Zeit, bis jemand es entwickelt. Einige Leute täuschten bereits Anfang des Jahres Verbindungen zu Bing Chat und seinem Alter Ego in Sydney vor. Stellen Sie sich nun vor, es hätte auch eine Stimme.
Vor zehn Jahren präsentierte der Film „Her“ eine Vision von KI, die so intim war, dass sie sich wie Science-Fiction anfühlte. Aber nach meinen jüngsten Erfahrungen mit ChatGPT erscheint mir das nicht mehr so weit hergeholt.
[ad_2]