Die unangefochtene Herrschaft von OpenAI über künstliche Intelligenz scheint vorbei zu sein. War das generative KI-Modell GPT-4, das erst vor einem Jahr eingeführt wurde, bisher der Maßstab für herausragende Technologie, so hat es nun ernsthafte Konkurrenten. Allein im letzten Monat haben drei Unternehmen – Mistral AI, Anthropic und chatgpt-openai-comparison“>Flexions-KI– präsentierte künstliche Intelligenz, die mit GPT-4 konkurrieren kann, wie es google Ende 2023 mit seinem Gemini-Modell tat.
Je intensiver sich der Wettlauf um Leistung verschärft, desto mehr gerät die Branche in einen Kampf der Maße. Jede Veröffentlichung eines neuen Modells wird von der Veröffentlichung einer Reihe von begleitet Maßstäbe, standardisierte Beurteilungen zu bestimmten Aufgaben. Das Ziel: die Leistung seiner KI beim Denken, Verstehen, Schreiben von Computercode oder sogar Mathematik zu quantifizieren, um sie mit denen seiner Konkurrenten zu vergleichen. Mit dem Ziel zu beweisen, dass sein Modell das Niveau von GPT-4 erreicht oder, noch besser, es übertrifft.
Nun stellt sich die Frage: Kann OpenAI seine Dominanz mit dem mit Spannung erwarteten GPT-5 wiederherstellen, dessen Veröffentlichungsdatum weiterhin Spekulationen anheizt?
GPT-4 veraltet? Je nach Maß mehr oder weniger
Am Montag, den 4. März, begleitete Anthropic die Präsentation seines Claude-3-Modells mit der Veröffentlichung der Ergebnisse von zehn Maßstäbe, in dem er bei Vergleichen systematisch als Sieger hervorging. Eine Möglichkeit für das konkurrierende Startup von OpenAI, sich den Platz an der Spitze des Leistungsrennens zu sichern. Doch bei näherer Betrachtung übertraf es seinen Konkurrenten GPT-4 in drei der zehn Tests nur um einen Zehntel-Prozentpunkt. Vor allem wurden die Details der Testergebnisse nicht ausreichend bekannt gegeben, um die angekündigte Überlegenheit in Frage zu stellen.
« Jedes Unternehmen wählt die Benchmarks aus, deren Ergebnisse sein Modell hervorheben », erklärt zu Die Tribüne Françoise Soulié-Fogelman, wissenschaftliche Beraterin des France IA Hub. „ Sie können dies tun, weil es heute keinen vorherrschenden Maßstab für die Bewertung großer Sprachmodelle gibt. „, Sie fügt hinzu. Im Gegensatz zur „traditionellen“ künstlichen Intelligenz, bei der letztendlich Standards festgelegt wurden, gibt es für ChatGPT und andere keinen wesentlichen Maßstab. Und das aus gutem Grund: Große Sprachmodelle (bekannt unter dem Akronym LLM) sind von Natur aus allgemein, das heißt, sie müssen praktisch jede Aufgabe erfüllen können, auch Anwendungsfälle, an die die Entwickler nicht gedacht hätten.
Infolgedessen wird der Nachweis der absoluten Überlegenheit eines Modells gegenüber einem anderen zu einem echten Problem, da es notwendig ist, eine sehr große Anzahl von Aufgaben zu messen und die Wichtigkeit oder Relevanz jeder Aufgabe im Verhältnis zu den anderen abzuwägen. Aus diesem Grund messen die meisten Unternehmen heute die Leistung von KI-Modellen für bestimmte Anwendungen und nicht in absoluten Zahlen. „ Da die Produktion eines LLM stark von der ihm gegebenen Aufforderung abhängt, muss man wirklich genau hinsehen, wenn man seine Leistung mit der eines anderen vergleicht », Fügt ein Forscher aus einer renommierten Struktur hinzu. Letzterer beobachtet gleichzeitig eine Sättigung von Maßstäbe aktuell, was die Notwendigkeit fordert, neue Bewertungsmöglichkeiten für immer leistungsfähigere Modelle zu schaffen.
Das Rennen um die Größe ist zu Ende
« Das tiefere Problem besteht darin, dass öffentliche Benchmarks kontaminiert und ihre Ergebnisse unbeabsichtigt manipuliert werden können. », warnt Stanislas Polu, Mitbegründer des französischen Startups Dust und ehemaliger OpenAI-Forscher. Konkret handelt es sich bei Benchmarks um von Menschen durchgeführte Übungen mit festen Werten, die zu einer Reihe in Stein gemeißelter richtiger Antworten führen. Doch selbst wenn KI-Entwickler sich verpflichten, ihre Modelle nicht direkt mit Antworten auf Benchmarks zu füttern, ist nicht garantiert, dass der Spickzettel nicht an anderer Stelle in den KI-Trainingsdaten zu finden ist.
Dies könnte beispielsweise in einem Diskussionsforum geschehen, in dem Benutzer über den Benchmark diskutieren. Der LLM könnte dann direkt auf die Ergebnisse zurückgreifen, anstatt die Argumentation durchzuführen. Als hätte ein Gymnasiast das Abitur bestanden, nachdem er am Vortag die Antworten gelesen hatte. Erste Studien belegen auch, dass durch Variation der Werte der Übungen Benchmarks, die Leistung von Modellen kann drastisch einbrechen…
Vor der letzten LLM-Generation verließen sich Entwickler auf Größenkriterien (mehr Parameter, mehr Trainingsdaten usw.), um die Überlegenheit ihres Modells gegenüber dem vorherigen nachzuweisen. Die Leistung war bei der Konstruktion der KI sichtbar und es bestand nicht so viel Bedarf, die Produktion des Modells zu analysieren. Doch im aktuellen Entwicklungsstadium von LLMs ist die Erhöhung der Parameterzahl nur ein Verbesserungskriterium unter anderen. Es bietet kaum eine Garantie für eine signifikante Verbesserung der KI-Denkfähigkeit und ist gleichzeitig sehr teuer im Test.
GPT-5, um einen KI-Winter zu vermeiden?
Hinter der Schlacht von Maßstäbe, ergibt sich eine Beobachtung: Niemand schneidet eindeutig besser ab als GPT-4. Und da OpenAI die Veröffentlichung von GPT-5 verzögert, scheint die Branche ein Plateau zu erreichen. „Das beste Modell mit einem Jahr und sogar mehr als 20 Monaten, wenn man vom Ende der Ausbildung an zählt. Entweder stellt sich heraus, dass es sehr schwierig ist, besser als GPT-4 zu sein, und dann, wenn die Konkurrenz aufholt, erreichen wir ein Leistungsplateau. Entweder veröffentlicht OpenAI ein neues Modell – GPT-4.5 oder GPT-5 – das deutlich besser ist und wir greifen auf das Modell zurück, das wir seit zwei Jahren kennen.“Projekte Stanislas Polu.
Das Unternehmen hinter ChatGPT hatte es Branchenbeobachtern angewöhnt, seine großen Ankündigungen im Kielwasser der Konkurrenten zu machen, um ihnen den Boden unter den Füßen wegzuziehen. Aus diesem Grund erwarteten einige Beobachter nach den Präsentationen von Mistral und Anthropic einen Gegenangriff. Doch stattdessen war OpenAI in einen Rufstreit mit Elon Musk verwickelt. Regisseur Sam Altman ist sich der Erwartungen an sein nächstes Modell bewusst und zögert nicht, mit seinem Publikum zu spielen. „ Geduld, das Warten wird sich lohnen », antwortete er am Montag einem Internetnutzer, der ihn fragte, wann GPT-5 veröffentlicht würde.
Geduld, Jimmy. das Warten wird sich lohnen. https://t.co/Hg2kaUpaCZ
– Sam Altman (@sama) 9. März 2024
Nachdem er im vergangenen November offiziell bekannt gab, dass sein Unternehmen tatsächlich an GPT-5 arbeitet, hat er keine weiteren Neuigkeiten bekannt gegeben, was im Hinblick auf den Fortschritt ihrer Forschung unbedingt interessant ist und einen großen Einfluss auf den Weg haben könnte. „ Wenn wir in eine Phase der Stagnation eintreten, in der alle die gleiche Leistung erbringen, müssen Modellentwickler in der Wertschöpfungskette aufsteigen und noch mehr in die Entwicklung von Produkten investieren. », erwartet Stanislas Polu. Es liegt an OpenAI – oder einem weniger erwarteten Konkurrenten – zu beweisen, dass der Wettlauf um Leistung nicht auf Eis liegt, denn gleichzeitig setzen Investoren und der Markt auf eine kontinuierliche Verbesserung der künstlichen Intelligenz …