OpenAI, das weiterhin Innovationen im Bereich der künstlichen Intelligenz vorantreibt, kündigte am 13. Mai 2024 die Einführung seines neuesten generativen Flaggschiffmodells GPT-4o an. Dieses neue Modell erreicht nicht nur hinsichtlich der Intelligenz das Niveau von GPT-4, sondern bietet auch erhebliche Verbesserungen bei mehreren Medien und Modalitäten. Das „o“ in GPT-4o steht für „omni“, was bedeutet, dass dieses Modell Text-, Sprach- und visuelle Informationen verarbeiten kann.
Mira Murati, Chief Technology Officer von OpenAI, sagte in einer Live-Demonstration aus dem OpenAI-Büro in San Francisco, dass die Fähigkeit von GPT-4o, über Ton, Text und Bild nachzudenken, für die Zukunft unserer Interaktionen mit Maschinen von entscheidender Bedeutung sein wird. Da dieses Modell schrittweise eingeführt wird, wird es in den kommenden Wochen schrittweise in den Entwickler- und Verbraucherprodukten des Unternehmens zum Einsatz kommen.
GPT-4o verbessert das Erlebnis im KI-Chatbot chatgpt von OpenAI erheblich. Die Plattform bietet nicht nur einen Sprachmodus, sondern kann die Antworten des Chatbots auch über ein Text-to-Speech-Modell transkribieren. Durch die Hinzufügung von GPT-4o können Benutzer ähnlicher wie ein Assistent interagieren. Benutzer können beispielsweise ChatGPT unterbrechen, während es eine Frage beantwortet, und das Modell kann diese mit „sofortiger“ Reaktionsfähigkeit bedienen und sogar die Nuancen in der Stimme des Benutzers erfassen, um mit unterschiedlichen emotionalen Stilen zu antworten.
Darüber hinaus verbessert GPT-4o auch die visuellen Verarbeitungsfähigkeiten von ChatGPT. Ob es sich um ein Foto oder einen Desktop-Bildschirm handelt, ChatGPT kann jetzt schnell Fragen beantworten, die von „Was ist mit diesem Softwarecode los?“ bis „Welche Hemdmarke trägt diese Person?“ reichen.
In Zukunft werden sich diese Funktionen weiterentwickeln. Murati sagte, dass GPT-4o heute zwar Menüs in verschiedenen Sprachen anzeigen und übersetzen könne, ChatGPT in Zukunft jedoch möglicherweise das „Ansehen“ von Live-Sportspielen und die Erklärung der Regeln ermöglichen könne.
GPT-4o schneidet nicht nur bei der Verarbeitung mehrerer Sprachen besser ab, laut OpenAI wurde seine Leistung auch in etwa 50 Sprachen verbessert. Darüber hinaus ist GPT-4o in der OpenAI-API und dem Azure OpenAI-Dienst von Microsoft doppelt so schnell wie GPT-4 Turbo, halb so teuer und verfügt über höhere Ratenlimits.
Quelle:Techcrunch