Am Montag, OpenAI angekündigt ein bedeutendes Update für chatgpt, das es seinen GPT-3.5- und GPT-4-KI-Modellen ermöglicht, Bilder zu analysieren und im Rahmen einer Textkonversation darauf zu reagieren. Außerdem wird die mobile ChatGPT-App Sprachsyntheseoptionen hinzufügen, die in Kombination mit den vorhandenen Spracherkennungsfunktionen vollständig verbale Gespräche mit dem KI-Assistenten ermöglichen, sagt OpenAI.
OpenAI plant, diese Funktionen „in den nächsten zwei Wochen“ in ChatGPT für Plus- und Enterprise-Abonnenten einzuführen. Es wird außerdem darauf hingewiesen, dass die Sprachsynthese nur für iOS und Android verfügbar sein wird und die Bilderkennung sowohl auf der Weboberfläche als auch in den mobilen Apps verfügbar sein wird.
Laut OpenAI können Benutzer mit der neuen Bilderkennungsfunktion in ChatGPT ein oder mehrere Bilder zur Konversation hochladen, indem sie entweder die Modelle GPT-3.5 oder GPT-4 verwenden. In seinem WerbeblogbeitragDas Unternehmen behauptet, dass die Funktion für eine Vielzahl alltäglicher Anwendungen genutzt werden kann: von der Ermittlung, was es zum Abendessen gibt, indem Sie Fotos vom Kühlschrank und der Speisekammer machen, bis hin zur Fehlerbehebung, warum Ihr Grill nicht startet. Außerdem heißt es, dass Benutzer den Touchscreen ihres Geräts verwenden können, um Teile des Bildes einzukreisen, auf die sich ChatGPT konzentrieren soll.
OpenAI bietet auf seiner Website eine Werbevideo Dies veranschaulicht einen hypothetischen Austausch mit ChatGPT, bei dem ein Benutzer fragt, wie man einen Fahrradsitz anhebt, und stellt Fotos sowie eine Bedienungsanleitung und ein Bild des Werkzeugkastens des Benutzers bereit. ChatGPT reagiert und weist den Benutzer darauf hin, wie er den Vorgang abschließen kann. Wir haben diese Funktion nicht selbst getestet, daher ist ihre tatsächliche Wirksamkeit nicht bekannt.
Wie funktioniert es also? OpenAI hat keine technischen Details darüber veröffentlicht, wie GPT-4 oder seine multimodale Funktionalität unter der Haube funktioniert, sondern basiert auf bekannte KI-Forschung Von anderen (einschließlich OpenAI-Partner Microsoft) stammen multimodale KI-Modelle, die in der Regel Text und Bilder in einen gemeinsamen Codierungsraum umwandeln, der es ihnen ermöglicht, verschiedene Arten von Daten über dasselbe neuronale Netzwerk zu verarbeiten. OpenAI darf verwenden CLIP um die Lücke zwischen visuellen und Textdaten so zu schließen, dass Bild- und Textdarstellungen im selben latenten Raum, einer Art vektorisiertem Netz von Datenbeziehungen, ausgerichtet werden. Diese Technik könnte es ChatGPT ermöglichen, kontextbezogene Schlussfolgerungen aus Text und Bildern zu ziehen, obwohl dies unsererseits spekulativ ist.
Unterdessen ermöglicht die neue Sprachsynthesefunktion von ChatGPT im Audiobereich Berichten zufolge eine hin- und hergehende gesprochene Konversation mit ChatGPT, angetrieben durch das, was OpenAI ein „neues Text-to-Speech-Modell“ nennt, obwohl Text-to-Speech schon seit einiger Zeit gelöst ist lange Zeit. Sobald die Funktion eingeführt wird, können Benutzer die Funktion nach Angaben des Unternehmens nutzen, indem sie sich in den Einstellungen der App für Sprachgespräche entscheiden und dann aus fünf verschiedenen synthetischen Stimmen mit Namen wie „Juniper“, „Sky“, „Cove“ und „Ember“ auswählen ,“ und „Brise“. Laut OpenAI wurden diese Stimmen in Zusammenarbeit mit professionellen Synchronsprechern erstellt.
Whisper von OpenAI, ein Open-Source-Spracherkennungssystem, über das wir im September letzten Jahres berichtet haben, wird weiterhin die Transkription der Spracheingaben des Benutzers übernehmen. Whisper ist seit seiner Einführung im Mai in die ChatGPT-iOS-App integriert. OpenAI veröffentlichte im Juli die ähnlich leistungsfähige ChatGPT-Android-App.
„ChatGPT ist nicht immer korrekt“
Als OpenAI im März GPT-4 ankündigte, stellte es die „multimodalen“ Fähigkeiten des KI-Modells vor, die es angeblich ermöglichen, sowohl Text- als auch Bildeingaben zu verarbeiten, aber die Bildfunktion blieb während eines Testprozesses für die Öffentlichkeit weitgehend tabu. Stattdessen hat sich OpenAI mit Be My Eyes zusammengetan, um eine App zu entwickeln, die Fotos von Szenen für Blinde interpretieren kann. Im Juli berichteten wir, dass Datenschutzprobleme bisher die Veröffentlichung der multimodalen Funktionen von OpenAI verhinderten. Mittlerweile ist Microsoft weniger vorsichtig hinzugefügt Bilderkennungsfunktion für Bing Chat, einen auf GPT-4 basierenden KI-Assistenten, im Juli.
In seiner jüngsten Ankündigung zum ChatGPT-Update weist OpenAI auf mehrere Einschränkungen der erweiterten Funktionen von ChatGPT hin und räumt Probleme ein, die von der Möglichkeit visueller Konfabulationen (d. h. der falschen Identifizierung von etwas) bis hin zur nicht perfekten Erkennung nicht-englischer Sprachen durch das Vision-Modell reichen . Das Unternehmen sagt, es habe Risikobewertungen „in Bereichen wie Extremismus und wissenschaftliche Kompetenz“ durchgeführt und den Input von Alpha-Testern eingeholt, rät aber dennoch zur Vorsicht bei der Verwendung, insbesondere in hochriskanten oder speziellen Kontexten wie wissenschaftlicher Forschung.
OpenAI ist über die Datenschutzprobleme informiert, die bei der Arbeit an der oben genannten Be My Eyes-App aufgetreten sind, und stellt fest, dass es „technische Maßnahmen ergriffen hat, um die Fähigkeit von ChatGPT, Personen zu analysieren und direkte Aussagen zu machen, erheblich einzuschränken, da ChatGPT nicht immer genau ist und diese Systeme Einzelpersonen respektieren sollten.“ ‚ Privatsphäre.“
Trotz ihrer Nachteile wirbt OpenAI in Marketingmaterialien mit diesen neuen Funktionen, dass sie ChatGPT die Möglichkeit geben, „zu sehen, zu hören und zu sprechen“. Nicht jeder ist glücklich über den Anthropomorphismus und die potenzielle Hype-Sprache, die damit verbunden ist. Auf X, Hugging Face KI-Forscherin Dr. Sasha Luccioni Gesendet, „Der ewige und ewige PSA: Hören Sie auf, KI-Modelle wie Menschen zu behandeln. Nein, ChatGPT kann nicht ‚sehen, hören und sprechen‘.“ Es kann mit Sensoren integriert werden, die ihm Informationen in verschiedenen Modalitäten liefern.“
Während ChatGPT und die damit verbundenen KI-Modelle eindeutig nicht menschlich sind – und Hype im Marketing eine sehr reale Sache ist –, wenn die Updates wie gezeigt funktionieren, stellen sie möglicherweise eine erhebliche Erweiterung der Fähigkeiten des Computerassistenten von OpenAI dar. Da wir sie aber noch nicht ausgewertet haben, bleibt das abzuwarten.
Wir halten Sie über neue Entwicklungen auf dem Laufenden, da die neuen Funktionen in den kommenden Wochen umfassend eingeführt werden. In der Zwischenzeit gibt OpenAI an, dass die Verzögerung einen guten Grund hat: „Wir glauben daran, unsere Tools schrittweise verfügbar zu machen“, schreiben sie, „was es uns ermöglicht, im Laufe der Zeit Verbesserungen vorzunehmen und Risikominderungen zu verfeinern und gleichzeitig alle auf leistungsfähigere Systeme vorzubereiten.“ die Zukunft.“