Anfang dieser Woche hat Meta die Modellgewichte von Llama 3.1 als Open Source bereitgestellt und veröffentlicht, einem äußerst leistungsstarken Large Language Model (LLM), dessen Fähigkeiten mit den besten Modellen wie chatgpt von Open AI und Claude von Anthropic vergleichbar sind.

Die Konditionen der Veröffentlichung sind (wie bei früheren Llama-Veröffentlichungen) sehr großzügig. Llama 3.1 ist für jede Organisation mit weniger als 700 Millionen aktiven Nutzern pro Monat kostenlos verfügbar, was bedeutet, dass fast jedes Unternehmen außer google, apple, Microsoft und Netflix damit beginnen kann, Llama direkt in seine Produkte zu integrieren.

Aber warum sollte Meta dieses Modell kostenlos veröffentlichen? Ist es reiner Altruismus? Vielleicht ein Trick, um das Image des Unternehmens zu verbessern, das in den letzten Jahren parteiübergreifenden politischen Zorn wegen Datenschutzbedenken ertragen musste?

Diese scheinbar großzügige Veröffentlichung erinnert an eine sehr klassische Geschäftsstrategie im Silicon Valley – „Commoditize Your Complement“. Dieses Konzept wurde erstmals vor 22 Jahren von Joel Spolsky im „Strategy Letter V“ ausgearbeitet. Einfach ausgedrückt: Wenn der Wert der Ergänzungen eines Produkts auf den niedrigsten nachhaltigen „Rohstoffpreis“ sinkt, sinkt die Nachfrage nach dem Produkt selbst. Im Gegenteil. es wird zunehmen.

Beispielsweise verdiente Microsoft in den 1990er Jahren hauptsächlich Geld mit dem Verkauf des Windows-Betriebssystems. Indem Microsoft die Kosten für PCs so weit wie möglich senkte (durch die Förderung der Standardisierung/Modularisierung aller PC-Komponenten), senkte Microsoft auch die Kosten für PC-Hardware . Komponentenkosten und erhöhte Nachfrage nach seinen Softwareprodukten. Ebenso hat Google, wenn es sein Android-Betriebssystem für Smartphone-Hersteller freigibt, nicht unbedingt die Interessen dieser Telefonhersteller im Auge. Tatsächlich sind Smartphones – vielleicht die fortschrittlichste technische Hardware, die jemals hergestellt wurde – so weit zur Ware geworden, dass praktisch jeder in der Dritten Welt sie für weniger als 20 US-Dollar kaufen kann, was die Gewinnmargen der Hersteller auf ein extrem niedriges Niveau drückt. Die Beliebtheit von Smartphones hat jedoch dazu geführt, dass Googles Suchprodukte und Anzeigenverkäufe weit über die Größe des Desktop-Computermarkts hinausgehen.

Siehe auch  [ChatGPT Teaching]PowerPoint-Inhaltsbilder werden in Sekundenschnelle generiert. Ein kurzer Blick auf das echte Gameplay von Gamma AI – ezone.hk – Teaching Evaluation – Anwendungsgeheimnisse

LLMs werden zur Ware

Ich denke, wir stehen jetzt an einem ähnlichen Scheideweg mit den General Purpose Large Language Models (LLMs). Laut einem aktuellen Artikel in Sequoia wären mehr als 600 Milliarden US-Dollar erforderlich, um die jüngsten KI-Investitionen in GPU-basierte Rechenzentren von NVIDIA wieder hereinzuholen. Um diese enormen Kosten wieder hereinzuholen, müssen Unternehmen viel mehr als diese Summe verdienen, um die Ausgaben zu rechtfertigen. Berichten zufolge belaufen sich die Abonnementeinnahmen von OpenAI jedoch nur auf etwa 3,4 Milliarden US-Dollar, und andere ähnliche Unternehmen könnten weit hinterherhinken. Da Meta ein im Wesentlichen kostenloses LLM veröffentlicht, das sowohl Open Source als auch gewichtet ist und es jedem ermöglicht, meta.ai frei zu nutzen, gehen wir davon aus, dass der Wert dieses Modells in den kommenden Monaten eher sinken als steigen wird.

Größere Modelle sind jedoch in Sicht. Laut der Keynote-Rede von Jensen Huang zum GTC im März 2024 sind nur etwa 8.000 H100-GPUs und 90 Tage erforderlich, um ein Hybrid-Expertenmodell im GPT-4-Maßstab mit 1,8 Megaparametern zu trainieren. Laut dem Llama-Whitepaper von Meta wurde das Modell Llama 3.1 405B 54 Tage lang mit 16.000 H100-GPUs vorab trainiert.

Obwohl das Training eines so großen Modells große technische Herausforderungen mit sich bringt, wird Meta laut dem Engineering-Blog von Meta bis Ende 2024 über das Äquivalent von 600.000 H100-Rechenleistung verfügen! Wenn diese alle für das Vortraining von LLMs verwendet würden (anstatt für Inferenzen oder den Aufbau des Empfehlungssystems für Instagram Reels), würde das 75 GPT-4-Modellen alle 90 Tage oder etwa 300 solcher Modelle pro Jahr entsprechen!

Dies bedeutet, dass (unter der Annahme, dass das Skalierungsgesetz bestehen bleibt und mehr Token erhalten werden können) die nächste Generation multimodaler, sehr großer Transformatormodelle, die trainiert werden, frühere Modelle weit übertreffen und leistungsfähiger sein wird … Und wie OpenAI und Newcomers wie Anthropic ist möglicherweise nicht einmal in der Lage, mit den Modellen zu konkurrieren, die als nächstes von größeren Unternehmen wie Meta herausgebracht werden. Sogar ein Land wie China könnte der Macht von 600.000 H100 erliegen!

Siehe auch  ChatGPT zur Verarbeitung Ihrer großen PDFs? Es gibt noch Arbeit!

Und Meta ist nicht das einzige große Technologieunternehmen, das das LLM-Modell als Open Source anbietet. NVIDIA veröffentlichte den Nemotron-3 (340B), Microsoft veröffentlichte die Modelle Phi und Florence, Google veröffentlichte Gemma und sogar kleinere Unternehmen wie Cohere und Mistral veröffentlichten ihre Modellgewichte.

Was sind die Ergänzungen von LLMs?

Nun, da es mehrere Unternehmen gibt, die Large Language Models (LLMs) kostenlos anbieten, stellt sich die Frage: Was sind die natürlichen Ergänzungen zu LLMs? Für Unternehmen wie Google, Microsoft, NVIDIA und Amazon ist die Antwort einfach: Server. Größere Modelle erfordern zum Betrieb mehr GPUs (oder TPUs). Wenn Sie also Serverraum vermieten oder GPUs verkaufen, ist die kostenlose Bereitstellung von „KI“ ein gutes Geschäft (von Sicherheitsbedenken abgesehen!).

Das Interessante an der aktuellen Version von Llama 3.1 ist, dass Meta seine Server nicht mietet. Tatsächlich wird fast jeder große Cloud-Anbieter – AWS, Google Cloud, Azure – einen größeren finanziellen Nutzen aus der Veröffentlichung von Llama 3.1 ziehen als Meta, da er sofort mit der Anmietung von Rechenzentren für den Betrieb dieses größeren Llama-Modells und seiner feinen Daten beginnen kann. Für kleinere Unternehmen werden abgestimmte Derivate als Schlussfolgerungen verwendet.

Zuckerberg erklärte, dass einer der scheinbar widersprüchlichen Gründe für Metas größtes Open-Source-LLM die Standardisierung sei. Meta hat eine lange Tradition im Open-Sourcing (und der Kommerzialisierung) interner Tools wie Presto und React, die dann zu Marktstandards werden.

Allerdings gebe es noch einige zwingendere Gründe für Open-Source-Tools wie Llama, erklärte Zuckerberg in einem Interview mit Bloomberg. Das ist die Generierung von Benutzerinhalten. Indem es Benutzern ermöglicht wird, KI-generierte Inhalte zu erstellen und vorab trainierte Modelle unabhängig zu verfeinern, deren Training andernfalls unerschwinglich teuer wäre, wird wahrscheinlich die Menge einzigartiger benutzergenerierter Inhalte zunehmen und auch die Benutzerinteraktion mit der Meta-Plattform wird zunehmen . Das könnte das ultimative Ziel für ein Unternehmen wie Meta sein, das den größten Teil seines Umsatzes mit dem Verkauf von Anzeigen an sein Benutzernetzwerk erzielt.

Ein weiterer möglicher Grund besteht darin, dass es keinen wirklichen Wert hat, das zweithäufigste große Sprachmodell zu sein, insbesondere für ein Unternehmen wie Meta, wo Benutzer ihm möglicherweise nicht genug vertrauen, um sich auf einen abonnementbasierten API-Zugriff zu verlassen. Zu dieser Schlussfolgerung kommen wahrscheinlich auch Mistral, Cohere, Google und andere. Tatsächlich hat Mistral zum Zeitpunkt dieses Schreibens gerade sein Mistral Large 2-Modell unter einer Forschungslizenz veröffentlicht.

Siehe auch  Berichten zufolge setzt Microsoft KI-Hoffnungen auf den hauseigenen „Athena“-Chip

Was passiert mit KI-Startups?

Die größten Verlierer der Kommerzialisierung von LLMs dürften letztlich die derzeit angesagtesten disruptiven KI-Startups sein – Unternehmen wie OpenAI, Anthropic, Character.ai, Cohere und Mistral. Wenn die fünf größten Unternehmen im S&P 500 beginnen, Ihr Hauptprodukt kostenlos zu verschenken, könnte eine Abrechnung bevorstehen.

Die CEOs der größten Technologieunternehmen müssen keine Angst vor der Größenordnung haben; das Einzige, worüber sie sich Sorgen machen müssen, ist, überholt und irrelevant zu werden.

Es stellt sich auch die Frage, ob der immer größer werdende Umfang multimodaler Transformer-Modelle letztendlich zu künstlicher allgemeiner Intelligenz (AGI) oder sogar künstlicher Superintelligenz (ASI) führen wird. Wenn diese kleineren Unternehmen über einen Modellierungs- oder Forschungs- und Entwicklungsvorteil hinausgehen, der über die bloße Anzahl an GPUs hinausgeht, haben sie möglicherweise immer noch eine Chance, die größeren Player zu überholen. Schließlich begann OpenAI mit der Grundlagenforschung – Dota-2-Bots, Robotik und Forschung zum Reinforcement Learning. Das ursprüngliche GPT-Modell war nur ein Nebenprojekt. Vielleicht lenken diese großen Sprachmodelle sogar von der Grundlagenforschung ab, die zu leistungsfähigeren Modellen und Forschungsrichtungen führen könnte.

Unabhängig davon ist das Ausmaß des aktuellen Infrastrukturaufbaus vielversprechend. Im Jahr 2001 platzte die Dotcom-Blase, der ebenfalls ein massiver Ausbau der Infrastruktur vorausging. Der Ausbau von Glasfaserkabeln und Breitbandinfrastruktur ebnete den Weg für Web 2.0-Unternehmen wie Facebook und Google, selbst bei starken Kursrückgängen an den Aktienmärkten. So wie der Infrastrukturaufbau damals Cloud Computing und das Streamen von Audio und Video ermöglichte, könnte der aktuelle Aufbau der KI-Infrastruktur auch zu Durchbrüchen in anderen Bereichen wie Robotik, selbstfahrenden Autos und Arzneimittelentwicklung führen.

Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein