Während sich die Kommunikationskapazität von ChatGPT früher nur auf Text beschränkte, reichte es aus, um in der öffentlichen Meinung für Aufsehen zu sorgen. Jetzt kann diese Plattform auch auf Benutzer reagieren, Bilder analysieren und Kommentare abfragen, Informationen abfragen und Lösungen für ein Problem finden.
Wächst wie ein Sturm
Seit seiner Einführung im November 2022 gilt ChatGPT als eine der größten technologischen Errungenschaften der letzten Jahre mit der Möglichkeit, einfache Texte zusammenzufassen, Essays zu schreiben und sogar… Gedichte zu schreiben.
Der Boom von ChatGPT spiegelt sich darin wider, dass sich der Wert der Muttergesellschaft OpenAI (mit Hauptsitz in San Francisco, USA) in nur einem Jahr verdreifacht hat. Am 26. September berichtete das Wall Street Journal, dass in Verhandlungen mit potenziellen Investoren der Wert von OpenAI auf etwa 80 bis 90 Milliarden US-Dollar geschätzt wurde.
Anfang des Jahres verkaufte OpenAI 300 Millionen Aktien und ihre Kapitalisierung wurde auf etwa 30 Milliarden US-Dollar geschätzt. Mit einer Zahl von 90 Milliarden gehören sie neben ByteDance (der Muttergesellschaft von TikTok) oder SpaceX zur Gruppe der wertvollsten Start-ups.
Darüber hinaus erhielt OpenAI auch eine riesige Investition von bis zu 10 Milliarden US-Dollar von Microsoft, das derzeit 49 % an diesem Unternehmen besitzt. Im April 2023 schätzt das Unternehmen, dass der diesjährige Umsatz eine Milliarde US-Dollar erreichen wird. Die Einnahmen von OpenAI stammen aus der Gebühr für den Zugang zu erweiterten Versionen von ChatGPT und der Lizenzierung der zugrunde liegenden Technologie an Unternehmen.
Angesichts dieser Entwicklungsdynamik hat OpenAI gerade einen neuen Schritt angekündigt, indem es ChatGPT mit Sprache für Echtzeitkommunikation und Bildbeobachtungsfunktionen ausstattet. In ihrer Einführung Anfang dieser Woche demonstrierten sie die Fähigkeit von ChatGPT, Menschen Gute-Nacht-Geschichten zu erzählen oder Streitigkeiten am Esstisch zu „lösen“.
Darüber hinaus kann ChatGPT je nach Benutzerwunsch Antworten auf der Grundlage von Bildern oder Diagrammen bereitstellen oder sich einfach auf einen bestimmten Teil des Fotos konzentrieren. Die oben genannten neuen Funktionen werden in den kommenden Wochen für Benutzer des ChatGPT Plus- und Enterprise-Plans verfügbar sein.
„Wir möchten ChatGPT benutzerfreundlicher und nützlicher machen“, zitierte die New York Times Peter Deng, Vizepräsident für Verbraucher- und Unternehmensprodukte bei OpenAI.
Ziel ist es, so schlau wie Menschen zu sein
Mit der neuen Version hat ChatGPT andere Chatbots wie google Bard überholt und konkurriert mit virtuellen KI-Assistenten wie Amazons Alexa und Apples Siri. Es macht das KI-Rennen auch heißer, als Google und Amazon kürzlich Aktualisierungen ihrer KI-Tools angekündigt haben.
Mittlerweile fanden auch andere Unternehmen schnell Möglichkeiten, sich diese Technologie zunutze zu machen. Beispielsweise erwägt die Online-Musikplattform Spotify, den Algorithmus von OpenAI zu nutzen, um Podcasts in verschiedene Sprachen zu übersetzen.
Nachdem sie die neue Funktion kennengelernt hatte, kommentierte die New York Times, dass die Stimme von ChatGPT natürlicher klingt als die anderer virtueller Assistenten und in der Lage ist, mit Benutzern zu interagieren. Laut OpenAI basiert die Stimme von ChatGPT „auf einem neuen Text-to-Speech-Modell, das in der Lage ist, menschenähnliche Klänge nur aus Text und einigen Sekunden Beispielsprache zu erzeugen.“ Das Unternehmen gab an, mit professionellen Synchronsprechern zusammengearbeitet zu haben, um fünf verschiedene Stimmen für den Chatbot zu erstellen.
Dank des LLM-Modells, das aus riesigen Informationsquellen im Internet lernt, gelten ChatGPT als stärkere Sprachkenntnisse. Während andere virtuelle Assistenten hauptsächlich im Rahmen der programmierten Fragen antworten, kann ChatGPT selbstbewusst über jedes Thema sprechen, auch wenn die Antworten nicht unbedingt korrekt sind.
Die Einspeisung von Audio- und visuellen Daten in die maschinellen Lernmodelle von ChatGPT ist auch ein Schritt in der langfristigen Vision von OpenAI, menschenähnlichere Intelligenz zu schaffen. „Wenn wir ein Modell erstellen, das nur Sprache verwendet, egal wie mächtig sie ist, dann ist es nur das Lernen von Sprache“, sagte Professor Trevor Darrell von der University of California in Berkeley.
Viele Bedenken
Die Entwicklung von ChatGPT führt jedoch weiterhin zu Debatten über potenzielle Risiken wie die Verbreitung gefälschter Nachrichten und die Ausnutzung durch Cyberkriminelle. Mit der Bildbeobachtungsfunktion betritt die Plattform ein neues Gebiet der Empfindlichkeit bei der Verarbeitung von Bildern, die Gesichter und menschliche Körper enthalten können.
Viele Menschen befürchten, dass damit Gesichter erkannt und Personen auf Fotos identifiziert werden könnten. Darüber hinaus kann die Fähigkeit, mathematische Probleme zu lösen und Diagramme mithilfe von Bildern zu verarbeiten, beim Lernen nützlich sein, aber auch ein Schlupfloch für Betrug sein.
Als Reaktion auf diese Bedenken sagte der OpenAI-Forscher Sandhini Agarwal, dass ChatGPT die Gesichtserkennung nicht unterstützen werde, das Unternehmen sich jedoch noch nicht für eine Richtlinie für Sprachdaten der Benutzer entschieden habe. Benutzer können wählen, ob sie mit ChatGPT ausgetauschte Daten speichern möchten oder nicht. Was nicht gespeichert wird, wird innerhalb von 30 Tagen automatisch gelöscht.