Die sozialen Medien sind in vollem Gange Gerüchte einer großen OpenAI-Ankündigung. Auslöser dafür waren der Erfolg von Metas Llama 3 (ein größeres Modell kommt im Juli) sowie eine kryptische Bilderserie, die vom KI-Labor geteilt wurde zeigt die Zahl 22.
Da der 22. April der Geburtstag von OpenAI-CEO Sam Altman ist – er ist 39 –, postuliert die Gerüchteküche, dass das Unternehmen etwas Großes wie Sora oder sogar das mit Spannung erwartete GPT-5 auf den Markt bringen wird.
Wenn Letzteres der Fall ist und wir ein großes neues KI-Modell erhalten, wird dies ein bedeutender Moment in der künstlichen Intelligenz sein, da Altman zuvor erklärt hat, dass es „deutlich besser“ als sein Vorgänger sein und die Menschen überraschen wird.
Ich persönlich denke, dass es eher so etwas wie GPT-4.5 oder sogar ein neues Update von DALL-E, dem Bildgenerierungsmodell von OpenAI, sein wird, aber hier ist für alle Fälle alles, was wir über GPT-5 wissen.
Was wissen wir über GPT-5?
Wir wissen sehr wenig über GPT-5, da OpenAI hinsichtlich der Leistung und Funktionalität seines Modells der nächsten Generation weitgehend Stillschweigen bewahrt. Wir wissen, dass es „wesentlich besser“ sein wird, da Altman diese Aussage mehr als einmal in Interviews gemacht hat.
Jedes neue große Sprachmodell von OpenAI stellt eine deutliche Verbesserung gegenüber der vorherigen Generation in den Bereichen Argumentation, Codierung, Wissen und Konversation dar. GPT-5 wird nicht anders sein.
Es befindet sich seit Ende letzten Jahres im Training und wird entweder deutlich mehr als die 1,5 Billionen Parameter in GPT-4 oder eine ähnliche Anzahl, aber eine stärkere zugrunde liegende Architektur haben, die eine deutliche Leistungsverbesserung ermöglicht, ohne die Gesamtgröße des Modells zu erhöhen.
Dies ist etwas, was wir von anderen gesehen haben, beispielsweise von Meta mit Llama 3 70B, einem Modell, das viel kleiner ist als Modelle wie GPT-3.5, aber in Benchmarks auf einem ähnlichen Niveau abschneidet.
Chat GPT-5 wird höchstwahrscheinlich multimodal sein, das heißt, er kann Eingaben von mehr als nur Text entgegennehmen, aber in welchem Umfang ist unklar. Die Gemini 1.5-Modelle von google können Text, Bilder, Videos, Sprache, Code, räumliche Informationen und sogar Musik verstehen. GPT-5 verfügt wahrscheinlich über ähnliche Fähigkeiten.
Was wird GPT-5 können?
Eine der größten Änderungen, die wir bei GPT-5 im Vergleich zu früheren Versionen sehen könnten, ist eine Verlagerung des Fokus vom Chatbot zum Agenten. Dies würde es dem KI-Modell ermöglichen, Aufgaben an Untermodelle zuzuweisen oder sich mit verschiedenen Diensten zu verbinden und eigenständig reale Aktionen auszuführen.
Dies ist ein Bereich, der von der gesamten Branche erforscht wird und Teil der Magie hinter dem Rabbit r1 AI-Gerät ist. Es ermöglicht einem Benutzer, mehr zu tun, als der KI nur eine Frage zu stellen. Sie könnten die KI vielmehr bitten, Anrufe zu bearbeiten, Flüge zu buchen oder eine Tabelle aus Daten zu erstellen, die sie an anderer Stelle gesammelt hat.
Ein potenzieller Einsatzbereich für Agenten liegt in der Bewältigung alltäglicher Aufgaben. Sie könnten chatgpt mit GPT-5 Ihre Ernährungsbedürfnisse, Zugriff auf Ihre intelligente Kühlschrankkamera und Ihr Lebensmittelgeschäftskonto geben und es könnte automatisch Nachfüllungen bestellen, ohne dass Sie involviert sein müssten.
Ich denke, dass dies dieses Jahr wahrscheinlich nicht passieren wird, aber Agenten sind sicherlich die Richtung für die KI-Branche, insbesondere da immer mehr intelligente Geräte und Systeme vernetzt werden.
Wie unterschiedlich wird GPT-5 sein?
Eine Sache, die wir bei GPT-5, insbesondere bei ChatGPT, sehen könnten, ist, dass OpenAI Google mit Gemini folgt und ihm standardmäßig Internetzugang gewährt. Dies würde das Problem des Datenabbruchs beseitigen, wenn nur Kenntnisse vorliegen, die so aktuell sind wie das Enddatum der Schulung.
Die erweiterte Multimodalität wird wahrscheinlich auch bedeuten, dass die Interaktion mit GPT-5 per Sprache, Video oder Sprache zur Standardeinstellung und nicht zu einer zusätzlichen Option wird. Dies würde es OpenAI erleichtern, ChatGPT in einen intelligenten Assistenten wie Siri oder Google Gemini zu verwandeln.
Abschließend denke ich, dass das Kontextfenster viel größer sein wird, als es derzeit der Fall ist. Derzeit sind es etwa 128.000 Token – so viel von der Konversation kann es in seinem Speicher speichern, bevor es vergisst, was Sie zu Beginn eines Chats gesagt haben.
Wir sehen bereits einige Modelle wie Gemini Pro 1.5 mit mehr als einer Million Kontextfenstern, und diese größeren Kontextfenster sind für die Videoanalyse aufgrund der größeren Datenpunkte eines Videos im Vergleich zu einfachem Text oder einem Standbild unerlässlich.
Bringt die Roboter raus
Einer der größten Trends in der generativen KI im vergangenen Jahr war die Bereitstellung eines Gehirns für humanoide Roboter, das es ihnen ermöglicht, Aufgaben selbstständig auszuführen, ohne dass ein Entwickler jede Aktion und jeden Befehl programmieren muss, bevor der Roboter sie ausführen kann.
OpenAI hat stark in das Robotik-Startup Figure investiert und GPT-4 als Antrieb für Figure 01 verwendet. GPT-5 wird im Rahmen seines Trainings wahrscheinlich über räumliche Wahrnehmungsdaten verfügen, um dies noch zuverlässiger und leistungsfähiger zu machen – um zu verstehen, wie Menschen mit der Welt interagieren .
Nvidia arbeitet auch an KI-Modellen in diesem Bereich, die allgemein verfügbar sein werden, und der Gründer des KI-Startups AI21, Professor Amnon Shashua, hat Mentee Robotics ins Leben gerufen, um Roboter mit GenAI-Antrieb zu entwickeln, die bereits im nächsten Jahr ihren Weg in Häuser und Arbeitsplätze finden könnten.
Google baut auch generative KI-gestützte Roboter, die zukünftige Versionen der Gemini-Modelle nutzen könnten, insbesondere mit riesigen Kontextfenstern, und Meta trainiert Llama, räumliche Informationen für kompetentere KI-basierte AR-Geräte wie die Datenbrille zu verstehen.
Was das alles bedeutet
Die Kluft zwischen Open- und Closed-Source-LLMs wird kleiner! Es wird zwangsläufig vollständig geschlossen und OSS wird bis Ende des Jahres aufholen! Auch mit GPT-5 in der Arena! pic.twitter.com/JaQJucZNWf13. April 2024
Im Wesentlichen kommen wir an einen Punkt – wie Metas Chef-KI-Wissenschaftler Yann LeCun vorhersagt – an dem unser gesamtes digitales Leben einen KI-Filter durchläuft. Agenten und Multimodalität in GPT-5 bedeuten, dass diese KI-Modelle Aufgaben in unserem Namen ausführen können und Roboter KI in die reale Welt bringen.
OpenAI sieht sich einer zunehmenden Konkurrenz durch Open-Source-Modelle von Unternehmen wie Mistral und Meta sowie direkten Konkurrenten wie Anthropic mit Claude und Google mit Gemini ausgesetzt. Dann verlässt sich Microsoft nicht mehr auf OpenAI – obwohl ich immer noch davon ausgehe, dass OpenAI im Mai auf der Build 2024 vorgestellt wird.
Bevor wir GPT-5 sehen, wird OpenAI meiner Meinung nach eine Zwischenversion wie GPT-4.5 mit aktuelleren Trainingsdaten, einem größeren Kontextfenster und verbesserter Leistung veröffentlichen. GPT-3.5 war ein bedeutender Fortschritt gegenüber dem GPT-3-Basismodell und hat ChatGPT ins Leben gerufen.
Altman sagt, dass sie dieses Jahr eine Reihe spannender Modelle und Produkte auf den Markt bringen werden, darunter Sora, möglicherweise das KI-Sprachprodukt Voice Engine und eine Art KI-Sprachmodell der nächsten Generation.
Mehr von Tom's Guide