GPT-4o verfügt über eine menschlich klingende Stimme und Übersetzungsfähigkeiten. Foto: SHutterstock

OpenAI hat GPT-4 omni (GPT-4o) demonstriert, ein „erstaunliches“ Update, das chatgpt eine menschlich klingende Stimme, Übersetzungsfähigkeiten, Computer Vision, eine emotionale Bandbreite – und eine Singstimme verleiht.

Eingeführt in a Live-Demonstration Unter der Leitung von Mira Murati, Chief Technology Officer von OpenAI, ändert sich die in das integrierte Benutzeroberfläche GPT-4o Das große Sprachmodell (LLM) – von dem sie sagte, dass es bei der Einführung in den kommenden Wochen „GPT-4-Level-Intelligenz für alle bereitstellen wird, einschließlich unserer kostenlosen Benutzer“ – wurde entwickelt, um die Interaktion mit dem Modell „viel natürlicher und umfassender“ zu gestalten , viel einfacher.“

„In den letzten Jahren haben wir uns sehr darauf konzentriert, die Intelligenz von zu verbessern [GPT] „Aber dies ist das erste Mal, dass wir wirklich einen großen Schritt nach vorne machen, wenn es um Benutzerfreundlichkeit geht“, sagte Murati. „Das ist unglaublich wichtig, denn wir blicken auf die Zukunft der Interaktion zwischen uns und den Maschinen.“

Durch eine Reihe von Demonstrationen zeigte Murati – zusammen mit dem Leiter der Frontiers-Forschung Mark Chen und dem Leiter des Post-Training-Teams Barret Zoph –, wie die GPT-4o-App, die auch in einer Desktop-App eingeführt werden soll, eine Schnittstelle in natürlicher Sprache bietet unterstützt Dutzende von Sprachen und Abfragen und liefert nahezu sofortige Antworten.

Die höhere Geschwindigkeit des neuen Modells bedeutete, dass die Demonstratoren die GPT-4o-Stimme mitten im Satz unterbrechen und ihr neue Anweisungen geben konnten, so wie eine Person eine andere während des natürlichen Gesprächsflusses unterbrechen könnte.

Als GPT-4o gebeten wurde, eine Gute-Nacht-Geschichte vorzulesen, änderte er auf Aufforderung seinen Tonfall und sprach jedes Mal intensiver, wenn man ihn aufforderte, mehr „Drama“ hinzuzufügen – und wechselte dann zu einer dramatischen Roboterstimme Singen auch das Ende der Geschichte.

Siehe auch  Das Risiko eines Verbots von ChatGPT in Europa steigt erneut

Das multimodale Modell integriert auch Computer Vision – so kann es beispielsweise interpretieren eine geschriebene lineare mathematische Gleichung und erklären Sie Zoph den Lösungsprozess.

Die Computer-Vision-Fähigkeiten von GPT-4o ermöglichten es ihm auch, ein Selfie von Zoph zu analysieren und auf seinen emotionalen Zustand zu schließen – „ziemlich glücklich und fröhlich“, vermutete das Model, „mit einem breiten Lächeln und vielleicht einem Hauch von Aufregung“.

Noch einmal mit Gefühl

Die Sprachfähigkeiten von GPT-4o führten online sofort zu Vergleichen mit „Samantha“, der Stimme von Scarlett Johansson KI-Begleiter aus dem Film von 2013 'Ihr' – das die Idee eines emotionalen, menschlich klingende KI in der Lage, willige Benutzer davon zu überzeugen, dass es sich um einen Menschen handelt.

Die emotionale Bandbreite der neuen KI sei „ziemlich erstaunlich“, sagte Alex Jenkins, Direktor des WA Data Science Innovation Hub der Curtin University Informationszeitalter.

Er verglich das ursprüngliche ChatGPT mit „einem gehörlosen Menschen, der jedes Buch auf der Welt, jeden Zeitschriftenartikel und jedes Blatt Papier, das er in die Finger bekommen konnte, las – aber nicht wusste, wie die Welt klingt.“

„Sie wussten nicht, wie menschliche Sprache ist“, sagte er, „und das hat offensichtlich Auswirkungen auf die Kommunikation auf menschenähnliche Weise, weil wir den Ausdruck in unserer Stimme ständig als Schlüsselkomponente der Kommunikation nutzen.“ .“

Obwohl Computer schon seit vielen Jahren „sprechen“, fügte Jenkins hinzu, „verstanden die „dummen“ früheren Text-to-Speech-Engines „die Absicht und den Kontext des Gesprächs nicht.“ Sie lasen die Wörter vor und wendeten den Tonfall nicht in irgendeiner sinnvollen Weise an.“

„Dieses neue Modell versteht, wie die Welt klingt und wie Menschen klingen, und es ist in der Lage, seine Stimme auf ähnliche Weise auszudrücken, wie es Menschen tun können.“

Siehe auch  Laut einer Studie bietet ChatGPT bessere Ratschläge als professionelle Kolumnisten

Die Ankündigung löste schnell eine Gegensalve von google aus angekündigt die Verfügbarkeit seiner Gemini 1.5 Pro LLM – das Funktionen wie die Analyse von Audiodateien und hochgeladenen Dokumenten mit einer Länge von bis zu 1.500 Seiten hinzufügt.

Die Verfügbarkeit von GPT-4o als Desktop-App wird auch die von apple gefährden Siri – angeblich fällig für eine KI-Überarbeitung im nächsten Monat Weltweite Entwicklerkonferenz – und Microsofts Cortana Sprachassistenten, mit Zoph demonstrieren wie er den Quellcode der Anwendung in die Desktop-App einspeisen und ihr Fragen zu den Informationen stellen kann – etwa was der Code tut oder was seine Ausgabe bedeutet.

Die Technologie bis zu diesem Punkt voranzutreiben „ist ziemlich komplex“, sagte Murati, „denn wenn wir miteinander interagieren, gibt es viele Dinge, die wir für selbstverständlich halten.“

Während frühere GPT-Modelle drei separate Elemente zur Spracherzeugung verwendeten – Transkriptionsintelligenz, Text-to-Speech und Orchestrierung –, erklärte sie, dass GPT-4o diese Funktionen nativ in Sprache, Text und visuelle Eingabeaufforderungen integriert.

Die Effizienz von GPT-4o ist auch deshalb von Bedeutung, weil es das erste Mal sein wird, dass OpenAI verwendet wird GPT-4 LLM – ein weitaus leistungsstärkerer Motor als der weit verbreitete GPT 3.5 das gab es bisher nur angeboten zahlende Kunden – steht jedem Benutzer kostenlos zur Verfügung.

Als die Benchmark an denen andere LLMs in Bezug auf Leistungsfähigkeit, Geschwindigkeit usw. gemessen werden Sicherheitwird die allgemeine Verfügbarkeit von GPT-4 die dem Massenmarkt zur Verfügung stehenden KI-Funktionen erheblich steigern – wobei die sprachgesteuerte Benutzeroberfläche von GPT-4o eine breite Palette neuer Anwendungsfälle ermöglicht.

Das neue Modell wird nicht nur bei Anwendungen wie der Unterstützung autistischer Menschen dabei helfen, verbal zu kommunizieren, sondern wird wahrscheinlich auch in der Lage sein, Gedichte zu schreiben, „die klingen, als ob sie fließen, und die lyrisch klingen“, sagte Jenkins.

Siehe auch  Metomic führt neues Browser-Plugin für verbesserte ChatGPT-Datensicherheit ein

„Von einem Weltuntergangsszenario von Skynet sind wir weit entfernt“, lachte er.

„Ich denke, das größte unmittelbare Risiko besteht darin, dass wir mit einer Menge mittelmäßiger Poesie überschwemmt werden.“

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein