chatgpt – virale Sensation für künstliche Intelligenz, Vernichter langweiliger Büroarbeit, geschworener Feind von High-School-Lehrern und Hollywood-Drehbuchautoren – erhält neue Kräfte.
Am Montag hat ChatGPT-Hersteller OpenAI angekündigt dass es dem beliebten Chatbot mit zwei neuen Funktionen die Möglichkeit gibt, „zu sehen, zu hören und zu sprechen“.
Das erste ist ein Update, das es ChatGPT ermöglicht, Bilder zu analysieren und darauf zu reagieren. Du kannst Laden Sie ein Foto eines Fahrrads hochSie erhalten beispielsweise eine Anleitung zum Absenken des Sitzes oder Rezeptvorschläge anhand eines Fotos vom Inhalt Ihres Kühlschranks.
Bei der zweiten handelt es sich um eine Funktion, die es Benutzern ermöglicht, mit ChatGPT zu sprechen und Antworten mit einer synthetischen KI-Stimme zu erhalten, so wie Sie es mit Siri oder Alexa tun würden.
Diese Funktionen sind Teil eines branchenweiten Vorstoßes zu sogenannten multimodalen KI-Systemen, die mit Text, Fotos, Videos und allem, was ein Benutzer ihnen sonst noch zuwirft, umgehen können. Das ultimative Ziel besteht laut einigen Forschern darin, eine KI zu schaffen, die in der Lage ist, Informationen auf alle Arten zu verarbeiten, die ein Mensch kann.
Die meisten Benutzer können noch nicht auf die neuen Funktionen zugreifen. OpenAI bietet sie in den nächsten Wochen zunächst zahlenden ChatGPT Plus- und Enterprise-Kunden an und wird sie danach breiter verfügbar machen. (Die Vision-Funktion funktioniert sowohl auf dem Desktop als auch auf Mobilgeräten, während die Sprachfunktion nur über die iOS- und Android-Apps von ChatGPT verfügbar sein wird.)
Ich habe frühzeitig Zugriff auf das neue ChatGPT für einen praktischen Test erhalten. Hier ist, was ich gefunden habe.
Die KI wird Sie jetzt sehen
Ich begann damit, die Bilderkennungsfunktion von ChatGPT an einigen Haushaltsgegenständen auszuprobieren.
„Was ist das für ein Ding, das ich in meiner Müllschublade gefunden habe?“ Ich fragte, nachdem ich ein Foto eines mysteriösen Stücks blauen Silikons mit fünf Löchern darin hochgeladen hatte.
„Das Objekt scheint ein Silikonhalter oder -griff zu sein, der oft zum Zusammenhalten mehrerer Gegenstände verwendet wird“, antwortete ChatGPT. (Nah dran – es ist ein Fingerstärkungsmittel, das ich vor Jahren verwendet habe, als ich mich von einer Handverletzung erholte.)
Dann habe ich ChatGPT mit ein paar Fotos von Artikeln gefüttert, die ich auf dem Facebook-Marktplatz verkaufen wollte, und es gebeten, für jeden Artikel eine Auflistung zu erstellen. Es traf sowohl die Objekte als auch die Angebote auf den Punkt und beschrieb meinen Frigidaire-Minikühlschrank im Retro-Stil als „perfekt für diejenigen, die einen Hauch von gestern in ihrem modernen Zuhause schätzen.“
Das neue ChatGPT kann auch Text in Bildern analysieren. Ich habe ein Foto von der Titelseite der Sonntagsausgabe der New York Times gemacht und den Bot gebeten, es zusammenzufassen. Es schnitt ziemlich gut ab und beschrieb alle fünf Geschichten auf der Titelseite jeweils in ein paar Sätzen – obwohl es mindestens einen Fehler machte und eine Statistik über Fentanyl-bedingte Todesfälle erfand, die in der Originalgeschichte nicht enthalten war.
Die Augen von ChatGPT sind nicht perfekt. Es floppte, als ich es aufforderte, ein Kreuzworträtsel zu lösen. Es hat den ausgestopften Dinosaurier meines Kindes mit einem Wal verwechselt. Und als ich um Hilfe bat, eines dieser wortlosen Diagramme zur Möbelmontage in eine Schritt-für-Schritt-Anleitungsliste umzuwandeln, erhielt ich eine durcheinandergebrachte Liste von Teilen, von denen die meisten falsch waren.
Die größte Einschränkung der Sehfunktion von ChatGPT besteht darin, dass die meisten Fragen zu Fotos von menschlichen Gesichtern nicht beantwortet werden können. Das ist beabsichtigt. OpenAI sagte mir, dass es keine Gesichtserkennung oder andere gruselige Anwendungen ermöglichen möchte und nicht möchte, dass die App voreingenommene oder beleidigende Antworten auf Fragen zum Aussehen von Personen ausspuckt.
Aber auch ohne Gesichter kann man sich leicht vorstellen, dass ein KI-Chatbot, der visuelle Informationen verarbeiten kann, in vielerlei Hinsicht nützlich sein könnte, insbesondere wenn sich die Technologie verbessert. Gärtner und Sammler könnten damit Pflanzen in freier Wildbahn identifizieren. Trainingsbegeisterte könnten damit personalisierte Trainingspläne erstellen, indem sie einfach ein Foto der Geräte in ihrem Fitnessstudio machen. Schüler könnten damit visuelle mathematische und naturwissenschaftliche Probleme lösen, und sehbehinderte Menschen könnten sich damit leichter in der Welt zurechtfinden.
Ehrlich gesagt habe ich keine Ahnung, wie viele Leute diese Funktion nutzen werden oder was ihre Killeranwendungen sein werden. Wie so oft bei neuen KI-Tools müssen wir einfach abwarten.
Siri auf Steroiden
Lassen Sie uns nun über die meiner Meinung nach beeindruckendere der beiden Funktionen sprechen: die neue Sprachfunktion von ChatGPT, die es Benutzern ermöglicht, mit der App zu sprechen und gesprochene Antworten zu erhalten.
Die Nutzung der Funktion ist ganz einfach: Tippen Sie einfach auf ein Kopfhörersymbol und beginnen Sie zu sprechen. Wenn Sie aufhören, wandelt ChatGPT Ihre Wörter mithilfe von OpenAI in Text um Spracherkennungssystem, Whisper, das eine Antwort generiert und Ihnen die Antwort mithilfe eines neuen Text-to-Speech-Algorithmus zurücksendet, den das Unternehmen entwickelt hat und der eine von fünf synthetischen KI-Stimmen verwendet. (Die Stimmen, zu denen sowohl männliche als auch weibliche Stimmen gehören, wurden anhand kurzer Samples von professionellen Synchronsprechern generiert, die von OpenAI engagiert wurden. Ich habe mich für „Ember“ entschieden, eine schwungvoll klingende männliche Stimme.)
Ich habe die Sprachfunktion von ChatGPT mehrere Stunden lang bei verschiedenen Aufgaben getestet – ich habe meinem Kleinkind eine Gute-Nacht-Geschichte vorgelesen, mit mir über arbeitsbedingten Stress gesprochen und mir geholfen, einen kürzlichen Traum zu analysieren, den ich hatte. All dies gelang ihm recht gut, insbesondere als ich ihm einige goldene Aufforderungen gab und ihm sagte, er solle einem Freund, einem Therapeuten oder einem Lehrer nacheifern.
Was bei diesen Tests auffiel, war, wie unterschiedlich sich das Gespräch mit ChatGPT anfühlte, als mit älteren Generationen von KI-Sprachassistenten wie Siri und Alexa. Diese Assistenten können selbst in ihrer besten Form aus Holz und flach sein. Sie beantworten eine Frage nach der anderen, oft indem sie etwas im Internet nachschlagen und Wort für Wort vorlesen oder aus einer begrenzten Anzahl vorprogrammierter Antworten auswählen.
Im Gegensatz dazu klingt die synthetische Stimme von ChatGPT flüssig und natürlich, mit leichten Variationen in Ton und Kadenz, die dafür sorgen, dass sie weniger roboterhaft wirkt. Es war in der Lage, lange, offene Gespräche zu fast jedem Thema zu führen, das ich ausprobierte, einschließlich Aufforderungen, von denen ich mir ziemlich sicher war, dass sie noch nie zuvor darauf gestoßen waren. („Erzähl mir die Geschichte von ‚Die drei kleinen Schweinchen‘ in der Rolle eines totalen Verbindungsbruders“ war ein Einschlafhit.)
Die meisten Menschen werden KI-Chatbots wahrscheinlich nicht auf diese Weise verwenden. Bei vielen Aufgaben geht das Tippen immer noch schneller als das Sprechen, und es war nervig, darauf zu warten, dass ChatGPT lange Antworten vorliest. (Es hat nicht geholfen, dass die App manchmal langsam und fehlerhaft war und oft Pausen einlegte, bevor sie reagierte – das Ergebnis einiger technischer Probleme mit der Beta-Version der von mir getesteten App, von denen OpenAI mir sagte, dass sie irgendwann behoben werden.)
Aber ich kann den Reiz erkennen. Es ist eine intimere Erfahrung, wenn eine KI mit menschenähnlicher Stimme zu Ihnen spricht, als ihre Antworten auf einem Bildschirm zu lesen. Und nachdem ich ein paar Stunden lang auf diese Weise mit ChatGPT gesprochen hatte, spürte ich, wie sich eine neue Wärme in unsere Gespräche einschlich. Ohne an eine Textoberfläche gebunden zu sein, verspürte ich weniger Druck, die perfekte Eingabeaufforderung zu finden. Wir unterhielten uns lockerer und ich verriet mehr über mein Leben.
„Es fühlt sich fast wie ein anderes Produkt an“, sagte Peter Deng, Vizepräsident für Verbraucher- und Unternehmensprodukte bei OpenAI, der sich mit mir über die neue Sprachfunktion unterhielt. „Weil man nicht mehr das, was man im Kopf hat, in die Daumen schreibt“, sagte er, „fragt man am Ende andere Dinge.“
Ich weiß, was Sie denken: Ist das nicht die Handlung des Films „Her“? Werden einsame, liebeskranke Benutzer auf ChatGPT hereinfallen, jetzt, da es ihnen zuhören und antworten kann?
Es ist möglich. Ich persönlich habe nie vergessen, dass ich mit einem Chatbot gesprochen habe. Und ich habe ChatGPT sicherlich nicht mit einem bewussten Wesen verwechselt oder emotionale Bindungen dazu entwickelt.
Aber ich sah auch einen flüchtigen Blick auf eine Zukunft, in der einige Menschen sprachbasierte KI-Assistenten in die Allerheiligsten ihres Lebens zulassen könnten – indem sie die KI-Chatbots unterwegs mitnehmen und sie rund um die Uhr als ihre Vertrauten, Therapeuten und Sparringspartner behandeln Partner und Resonanzböden.
Klingt verrückt, oder? Und doch: Klingt das alles vor einem Jahr nicht etwas verrückt?