Letztes Jahr stellte OpenAI sein leistungsstärkstes Large Language Model (LLM) vor, das GPT-4. Das LLM wurde als bedeutender Fortschritt gegenüber seinem Vorgänger GPT-3.5 bezeichnet. Bei seiner Vorstellung teilte OpenAI Details zu den Fähigkeiten des Modells mit und zeigte eine beeindruckende Leistung bei verschiedenen Prüfungen. GPT-4 erreichte bemerkenswerte Perzentile in Prüfungen wie LSAT, SAT Math, GRE Quantitative und GRE in Wort und Schrift. Kürzlich hieß es in Berichten auch, dass OpenAI das LLM mithilfe umfangreicher Daten aus Millionen Stunden YouTube-Videos trainiert habe. Jetzt hat das von Sam Altman geführte Unternehmen ein weiteres Upgrade für GPT-4 angekündigt.

Im Rahmen des neuen Updates kann der GPT-4 Bildeingaben akzeptieren und Probleme besser lösen. OpenAI erklärte in einem Blogbeitrag, dass es sich bei GPT-4 um ein großes multimodales Modell handelt, das „schwierige Probleme dank seines breiteren Allgemeinwissens und seiner fortgeschrittenen Argumentationsfähigkeiten mit größerer Genauigkeit lösen kann als jedes seiner Vorgängermodelle“.

Diese neueste Version, bekannt als GPT-4 Turbo with Vision, wurde allgemein als API für Entwickler verfügbar gemacht. OpenAI hat außerdem angedeutet, dass GPT-4 Turbo with Vision bald auch bei chatgpt verfügbar sein wird. Es wurden jedoch nicht viele Details darüber bekannt gegeben.

In einem Beitrag auf X schrieb OpenAI: „GPT-4 Turbo mit Vision ist jetzt allgemein in der API verfügbar. Vision-Anfragen können jetzt auch den JSON-Modus und Funktionsaufrufe verwenden.“

Durch die zusätzliche Vision-Technologie kann GPT-4 Turbo nun Bilder, Videos und andere Multimedia-Eingaben verarbeiten und analysieren und detaillierte Antworten und Erkenntnisse liefern. Diese Ausweitung auf Computer Vision eröffnet Entwicklern eine Reihe von Möglichkeiten und ermöglicht die Erstellung innovativer Anwendungen in verschiedenen Branchen.

Siehe auch  Elon Musks xAI strebt eine Finanzierung in Höhe von 6 Milliarden US-Dollar an, um den ChatGPT-Hersteller OpenAI herauszufordern

Ein bemerkenswertes Merkmal des Updates ist die Einführung des JSON-Modus und des Funktionsaufrufs, der es Entwicklern ermöglicht, Aktionen innerhalb ihrer Anwendungen mithilfe von JSON-Codefragmenten zu automatisieren. Dies verspricht eine Rationalisierung der Arbeitsabläufe und eine Steigerung der Effizienz, sodass Entwickler GPT-4 Turbo mit Vision einfacher in ihre Projekte integrieren können.

Das verbesserte KI-Modell verfügt über ein Kontextfenster von 128.000 Token und wird auf Daten bis Dezember 2023 trainiert.

In diesem Zusammenhang heißt es in einem aktuellen Bericht der New York Times, dass OpenAI während der Entwicklung seines Whisper-Audiotranskriptionsmodells mit einem Mangel an Trainingsdaten konfrontiert war. Um dieses Problem zu umgehen, hat das Unternehmen Berichten zufolge über eine Million Stunden YouTube-Videos transkribiert, um sein GPT-4-Sprachmodell zu trainieren, trotz der rechtlichen Unklarheit dieses Ansatzes. Berichten zufolge spielte OpenAI-Präsident Greg Brockman eine direkte Rolle bei der Beschaffung dieser Videos. Der Bericht fügte außerdem hinzu, dass OpenAI bis 2021 seine herkömmlichen Datenquellen erschöpft habe, was zu Diskussionen über die Transkription von YouTube-Videos, Podcasts und Hörbüchern geführt habe. Zuvor hatte das Unternehmen seine Modelle anhand verschiedener Datensätze trainiert, darunter Computercode von GitHub und Bildungsinhalte von Quizlet.

Herausgegeben von:

Divyanshi Sharma

Veröffentlicht auf:

11. April 2024

Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein