OpenAI hat mit Spannung erwartete Upgrades eingeführt, die es seinem beliebten chatgpt-Chatbot ermöglichen, mit Bildern und Stimmen zu interagieren. Diese Einführung stellt einen großen Schritt in Richtung OpenAIs Vision einer künstlichen allgemeinen Intelligenz dar, die Informationen aus mehreren Modi, nicht nur aus Text, wahrnehmen und verarbeiten kann.
„Wir beginnen mit der Einführung neuer Sprach- und Bildfunktionen in ChatGPT. Sie bieten eine neue, intuitivere Art von Benutzeroberfläche, indem sie es Ihnen ermöglichen, eine Sprachkonversation zu führen oder ChatGPT zu zeigen, worüber Sie sprechen“, sagte OpenAI in seinem Beitrag offizieller Blogbeitrag.
https://youtu.be/–khbXchTeE?si=vx3ne9oRgzvJV6ZA
OpenAI sagte, dass das neue ChatGPT-Plus einen Voice-Chat beinhalten wird, der auf einem neuartigen Text-to-Speech-Modell basiert, das menschliche Stimmen nachahmen kann, und die Möglichkeit, Bilder dank der Integration mit den Bildgenerierungsmodellen des Unternehmens zu diskutieren. Die neuen Funktionen scheinen Teil dessen zu sein, was als bekannt ist GPT-Vision (oder GPT-V, das oft mit einem theoretischen GPT-5 verwechselt wird) und stellen Schlüsselkomponenten der erweiterten multimodalen Version von GPT-4 dar OpenAI wurde Anfang des Jahres gehänselt
Dieses Upgrade erfolgt direkt nach der Vorstellung von DALL-E 3 durch OpenAI, seinem bislang fortschrittlichsten Text-zu-Bild-Generator. Von frühen Testern aufgrund seiner Qualität und Genauigkeit als „verrückt“ gepriesen, kann DALL-E 3 aus Textaufforderungen hochauflösende Bilder erstellen und gleichzeitig komplexe Zusammenhänge und Konzepte verstehen, die in natürlicher Sprache ausgedrückt werden. Es wird in ChatGPT Plus integriert, ein Abonnement- basierte Dienst, der ein ChatGPT bietet, das auf GPT-4 basiert.
Die Integration von DALL-E 3 und Konversations-Voice-Chat bedeutet den Vorstoß von OpenAI hin zu KI-Assistenten, die die Welt eher wie Menschen wahrnehmen können – mit mehreren Sinnen. Laut Angaben des Unternehmens: „Sprache und Bild bieten Ihnen mehr Möglichkeiten, ChatGPT in Ihrem Leben zu nutzen.“ Machen Sie auf Reisen ein Foto von einem Wahrzeichen und führen Sie ein Live-Gespräch darüber, was daran interessant ist.“
Microsoft treibt den KI-Wettlauf mit der OpenAI-Integration voran
Auch der größte Unterstützer von OpenAI, Microsoft, treibt die Integration der fortschrittlichen generativen KI-Funktionen von OpenAI in seine eigenen Verbraucherprodukte voran. Auf seiner jüngsten Herbstveranstaltung kündigte Microsoft KI-Upgrades für windows 11, Office und die Bing-Suche an, die Modelle wie DALL-E 3 (in Bildoptimierungsprogrammen wie Microsofts überarbeitetem Paint) und Copilot, den Programmierassistenten von OpenAI, nutzen.
Dies stimmt mit überein Microsoft investiert mehr als 10 Milliarden US-Dollar in OpenAI, da es darauf abzielt, das Rennen um die KI-Assistenten anzuführen. Das Debüt von Copilot in Windows 11 am 26. September verspricht, KI-Hilfe auf allen Plattformen und Geräten von Microsoft verfügbar zu machen. Unterdessen nutzt Microsoft 365 Chat die natürlichen Sprachfähigkeiten von OpenAI, um komplexe Arbeitsaufgaben zu automatisieren.
Wie bereits berichtet von EntschlüsselnMicrosoft sagte, dass „Microsoft 365 Chat Ihr gesamtes Datenuniversum bei der Arbeit durchsucht, einschließlich E-Mails, Besprechungen, Chats, Dokumente und mehr sowie das Web.“
Behutsame Schritte hin zu einer verantwortungsvollen KI
OpenAI ist sich jedoch der potenziellen Risiken durch leistungsfähigere multimodale KI-Systeme mit Bild- und Spracherzeugung bewusst. Identitätswechsel, Voreingenommenheit und das Vertrauen auf visuelle Interpretation sind Hauptanliegen.
„Das Ziel von OpenAI ist es, AGI zu entwickeln, das sicher und nützlich ist“, schrieb das Unternehmen in seiner Ankündigung. „Wir sind davon überzeugt, dass wir unsere Tools nach und nach zur Verfügung stellen müssen, damit wir im Laufe der Zeit Verbesserungen vornehmen und Risikominderungen verfeinern können, während wir gleichzeitig alle auf leistungsfähigere Systeme in der Zukunft vorbereiten.“
Ebenso wie Entschlüsseln Wie bereits berichtet, stellt OpenAI ein rotes Team zusammen, um an Möglichkeiten zu arbeiten, schädliche Folgen durch die unsachgemäße Verwendung seiner KI-Produkte zu verhindern. Auch CEO Sam Altman setzt sich weltweit für eine günstige Gesetzgebung ein.
OpenAI sagte, dass Plus- und Enterprise-Benutzer in den nächsten zwei Wochen Zugriff auf diese neuen Funktionalitäten haben werden, mit Plänen, die Verfügbarkeit für Entwickler anschließend zu erweitern. Und da google mit Gemini auch sein eigenes revolutionäres multimodales LLM ankündigt, beginnt der Wettlauf um die Vorherrschaft in der KI-Branche gerade erst