OpenAI führt neue Funktionalitäten für chatgpt ein, die es ermöglichen, Eingabeaufforderungen zusätzlich zu Text auch mit Bildern und Sprachanweisungen auszuführen.
Die Marke KI am Montag bekannt gegeben dass diese neuen Funktionen in den nächsten zwei Wochen für ChatGPT Plus- und Enterprise-Benutzer verfügbar gemacht werden. Die Sprachfunktion ist in iOS und Android als Opt-in-Funktion verfügbar, während die Bildfunktion auf allen ChatGPT-Plattformen verfügbar ist. OpenAI weist darauf hin, dass es plant, die Verfügbarkeit der Bilder und Sprachfunktionen nach der gestaffelten Einführung auf zahlende Benutzer auszuweiten.
Der Voice-Chat fungiert als akustisches Gespräch zwischen dem Benutzer und ChatGPT. Sie drücken den Knopf und sagen Ihre Frage. Nach der Verarbeitung der Informationen gibt Ihnen der Chatbot eine Antwort in akustischer Sprache statt in Textform. Der Prozess ähnelt der Nutzung virtueller Assistenten wie Alexa oder google Assistant und könnte der Auftakt zu einer kompletten Überarbeitung der virtuellen Assistenten insgesamt sein. Die Ankündigung von OpenAI erfolgt nur wenige Tage, nachdem Amazon eine ähnliche Funktion für Alexa angekündigt hat.
Um die Sprach- und Audiokommunikation mit ChatGPT zu implementieren, verwendet OpenAI ein neues Text-to-Speech-Modell, das in der Lage ist, „menschenähnliches Audio nur aus Text und einigen Sekunden Beispielsprache“ zu erzeugen. Darüber hinaus kann das Whisper-Modell „Ihre gesprochenen Worte in Text umwandeln“.
OpenAI sagt, es sei sich der Probleme bewusst, die aufgrund der Leistungsfähigkeit dieser Funktion entstehen könnten, darunter „das Potenzial für böswillige Akteure, sich als Persönlichkeiten des öffentlichen Lebens auszugeben oder Betrug zu begehen“.
Dies ist einer der Hauptgründe, warum das Unternehmen plant, die Nutzung seiner neuen Funktionen auf „spezifische Anwendungsfälle und Partnerschaften“ zu beschränken. Selbst wenn die Funktionen breiter verfügbar sind, werden sie hauptsächlich für privilegiertere Benutzer, wie z. B. Entwickler, zugänglich sein.
Mit der Bildfunktion können Sie ein Bild aufnehmen und es zusammen mit Ihrer Frage oder Aufforderung in ChatGPT eingeben. Sie können das Zeichentool mit der App verwenden, um Ihre Antwort zu verdeutlichen und ein Hin- und Her-Gespräch mit dem Chatbot zu führen, bis Ihr Problem gelöst ist. Dies ähnelt der neuen Copilot-Funktion von Microsoft in Windows, die auf dem OpenAI-Modell aufbaut.
OpenAI hat auch die Herausforderungen von ChatGPT erkannt, wie beispielsweise das anhaltende Halluzinationsproblem. Bei der Ausrichtung auf die Bildfunktion beschloss die Marke, bestimmte Funktionalitäten einzuschränken, beispielsweise die „Fähigkeit des Chatbots, Personen zu analysieren und direkte Aussagen über sie zu treffen“.
ChatGPT wurde erstmals Ende letzten Jahres als Text-to-Speech-Tool eingeführt; Allerdings hat OpenAI seine Fähigkeiten schnell erweitert. Der ursprüngliche Chatbot, der auf dem GPT-3-Sprachmodell basiert, wurde inzwischen auf GPT-3.5 und jetzt auf GPT-4 aktualisiert, das Modell, das die neue Funktion erhält.
Als GPT-4 im März zum ersten Mal auf den Markt kam, kündigte OpenAI verschiedene Unternehmenskooperationen an, beispielsweise Duolingo, das das KI-Modell nutzte, um die Genauigkeit des Hör- und Sprachunterrichts in der Sprachlern-App zu verbessern. OpenAI hat mit Spotify zusammengearbeitet, um Podcasts in andere Sprachen zu übersetzen und dabei den Klang der Stimme des Podcasters beizubehalten. Das Unternehmen sprach auch über seine Arbeit mit der mobilen App Be My Eyes, die blinden und sehbehinderten Menschen hilft. Viele dieser Apps und Dienste waren bereits vor dem Bild- und Sprachupdate verfügbar.
Empfehlungen der Redaktion