Start ChatGPT ChatGPT bekommt eine Stimme – und Gefühle | Informationszeitalter

Woman speaking with alphabetical letters coming out of her mouth.

ChatGPT bekommt eine Stimme – und Gefühle | Informationszeitalter

Von

Mai 16, 2024

GPT-4o verfügt über eine menschlich klingende Stimme und Übersetzungsfähigkeiten. Foto: SHutterstock

OpenAI hat GPT-4 omni (GPT-4o) demonstriert, ein „erstaunliches“ Update, das chatgpt eine menschlich klingende Stimme, Übersetzungsfähigkeiten, Computer Vision, eine emotionale Bandbreite – und eine Singstimme verleiht.

Eingeführt in a Live-Demonstration Unter der Leitung von Mira Murati, Chief Technology Officer von OpenAI, ändert sich die in das integrierte Benutzeroberfläche GPT-4o Das große Sprachmodell (LLM) – von dem sie sagte, dass es bei der Einführung in den kommenden Wochen „GPT-4-Level-Intelligenz für alle bereitstellen wird, einschließlich unserer kostenlosen Benutzer“ – wurde entwickelt, um die Interaktion mit dem Modell „viel natürlicher und umfassender“ zu gestalten , viel einfacher.“

„In den letzten Jahren haben wir uns sehr darauf konzentriert, die Intelligenz von zu verbessern [GPT] „Aber dies ist das erste Mal, dass wir wirklich einen großen Schritt nach vorne machen, wenn es um Benutzerfreundlichkeit geht“, sagte Murati. „Das ist unglaublich wichtig, denn wir blicken auf die Zukunft der Interaktion zwischen uns und den Maschinen.“

Durch eine Reihe von Demonstrationen zeigte Murati – zusammen mit dem Leiter der Frontiers-Forschung Mark Chen und dem Leiter des Post-Training-Teams Barret Zoph –, wie die GPT-4o-App, die auch in einer Desktop-App eingeführt werden soll, eine Schnittstelle in natürlicher Sprache bietet unterstützt Dutzende von Sprachen und Abfragen und liefert nahezu sofortige Antworten.

Die höhere Geschwindigkeit des neuen Modells bedeutete, dass die Demonstratoren die GPT-4o-Stimme mitten im Satz unterbrechen und ihr neue Anweisungen geben konnten, so wie eine Person eine andere während des natürlichen Gesprächsflusses unterbrechen könnte.

Als GPT-4o gebeten wurde, eine Gute-Nacht-Geschichte vorzulesen, änderte er auf Aufforderung seinen Tonfall und sprach jedes Mal intensiver, wenn man ihn aufforderte, mehr „Drama“ hinzuzufügen – und wechselte dann zu einer dramatischen Roboterstimme Singen auch das Ende der Geschichte.

Siehe auch Das Risiko eines Verbots von ChatGPT in Europa steigt erneut

Das multimodale Modell integriert auch Computer Vision – so kann es beispielsweise interpretieren eine geschriebene lineare mathematische Gleichung und erklären Sie Zoph den Lösungsprozess.

Die Computer-Vision-Fähigkeiten von GPT-4o ermöglichten es ihm auch, ein Selfie von Zoph zu analysieren und auf seinen emotionalen Zustand zu schließen – „ziemlich glücklich und fröhlich“, vermutete das Model, „mit einem breiten Lächeln und vielleicht einem Hauch von Aufregung“.

Noch einmal mit Gefühl

Die Sprachfähigkeiten von GPT-4o führten online sofort zu Vergleichen mit „Samantha“, der Stimme von Scarlett Johansson KI-Begleiter aus dem Film von 2013 'Ihr' – das die Idee eines emotionalen, menschlich klingende KI in der Lage, willige Benutzer davon zu überzeugen, dass es sich um einen Menschen handelt.

Die emotionale Bandbreite der neuen KI sei „ziemlich erstaunlich“, sagte Alex Jenkins, Direktor des WA Data Science Innovation Hub der Curtin University Informationszeitalter.

Er verglich das ursprüngliche ChatGPT mit „einem gehörlosen Menschen, der jedes Buch auf der Welt, jeden Zeitschriftenartikel und jedes Blatt Papier, das er in die Finger bekommen konnte, las – aber nicht wusste, wie die Welt klingt.“

„Sie wussten nicht, wie menschliche Sprache ist“, sagte er, „und das hat offensichtlich Auswirkungen auf die Kommunikation auf menschenähnliche Weise, weil wir den Ausdruck in unserer Stimme ständig als Schlüsselkomponente der Kommunikation nutzen.“ .“

Obwohl Computer schon seit vielen Jahren „sprechen“, fügte Jenkins hinzu, „verstanden die „dummen“ früheren Text-to-Speech-Engines „die Absicht und den Kontext des Gesprächs nicht.“ Sie lasen die Wörter vor und wendeten den Tonfall nicht in irgendeiner sinnvollen Weise an.“

„Dieses neue Modell versteht, wie die Welt klingt und wie Menschen klingen, und es ist in der Lage, seine Stimme auf ähnliche Weise auszudrücken, wie es Menschen tun können.“

Siehe auch Laut einer Studie bietet ChatGPT bessere Ratschläge als professionelle Kolumnisten

Die Ankündigung löste schnell eine Gegensalve von google aus angekündigt die Verfügbarkeit seiner Gemini 1.5 Pro LLM – das Funktionen wie die Analyse von Audiodateien und hochgeladenen Dokumenten mit einer Länge von bis zu 1.500 Seiten hinzufügt.

Die Verfügbarkeit von GPT-4o als Desktop-App wird auch die von apple gefährden Siri – angeblich fällig für eine KI-Überarbeitung im nächsten Monat Weltweite Entwicklerkonferenz – und Microsofts Cortana Sprachassistenten, mit Zoph demonstrieren wie er den Quellcode der Anwendung in die Desktop-App einspeisen und ihr Fragen zu den Informationen stellen kann – etwa was der Code tut oder was seine Ausgabe bedeutet.

Die Technologie bis zu diesem Punkt voranzutreiben „ist ziemlich komplex“, sagte Murati, „denn wenn wir miteinander interagieren, gibt es viele Dinge, die wir für selbstverständlich halten.“

Während frühere GPT-Modelle drei separate Elemente zur Spracherzeugung verwendeten – Transkriptionsintelligenz, Text-to-Speech und Orchestrierung –, erklärte sie, dass GPT-4o diese Funktionen nativ in Sprache, Text und visuelle Eingabeaufforderungen integriert.

Die Effizienz von GPT-4o ist auch deshalb von Bedeutung, weil es das erste Mal sein wird, dass OpenAI verwendet wird GPT-4 LLM – ein weitaus leistungsstärkerer Motor als der weit verbreitete GPT 3.5 das gab es bisher nur angeboten zahlende Kunden – steht jedem Benutzer kostenlos zur Verfügung.

Als die Benchmark an denen andere LLMs in Bezug auf Leistungsfähigkeit, Geschwindigkeit usw. gemessen werden Sicherheitwird die allgemeine Verfügbarkeit von GPT-4 die dem Massenmarkt zur Verfügung stehenden KI-Funktionen erheblich steigern – wobei die sprachgesteuerte Benutzeroberfläche von GPT-4o eine breite Palette neuer Anwendungsfälle ermöglicht.

Das neue Modell wird nicht nur bei Anwendungen wie der Unterstützung autistischer Menschen dabei helfen, verbal zu kommunizieren, sondern wird wahrscheinlich auch in der Lage sein, Gedichte zu schreiben, „die klingen, als ob sie fließen, und die lyrisch klingen“, sagte Jenkins.

Siehe auch Metomic führt neues Browser-Plugin für verbesserte ChatGPT-Datensicherheit ein

„Von einem Weltuntergangsszenario von Skynet sind wir weit entfernt“, lachte er.

„Ich denke, das größte unmittelbare Risiko besteht darin, dass wir mit einer Menge mittelmäßiger Poesie überschwemmt werden.“

5/5 - (390 votes)

ChatGPT bekommt eine Stimme – und Gefühle | Informationszeitalter

Kommentieren Sie den Artikel Antwort abbrechen

SK Telecom und Deutsche Telekom schmieden Metaverse-Allianz

An Explosion on this Wonderful World erhält Teaser-Trailer

Verwandte ArtikelMehr vom Autor

Das ChatGPT Hong Kong-Tutorial zeigt Ihnen Schritt für Schritt, wie Sie sich kostenlos registrieren, wie Sie es verwenden und wie Sie das Abonnement bezahlen

ChatGPT erklärte, was mit dem Hamster Kombat-Whitepaper nicht stimmt

Sparen Sie 80 % auf dieses AI Super Skills Bundle feat. ChatGPT, Leonardo, Midjourney und mehr

Kommentieren Sie den Artikel Antwort abbrechen

SK Telecom und Deutsche Telekom schmieden Metaverse-Allianz

An Explosion on this Wonderful World erhält Teaser-Trailer

Verwandte Artikel Mehr vom Autor