Wie kann ChatGPT genauer werden? Schicken Sie es an die Hochschule, indem Sie es mit Daten besserer Qualität trainieren.
Dies stellt die verlockende Möglichkeit einer neuen Einnahmequelle für Verlage und jedes andere Unternehmen dar, das über wertvolle, genaue Texte verfügt, die zum Trainieren von Sprachmodellen verwendet werden könnten. Für OpenAI wird es teuer, aber es könnte die Dominanz von Sam Altmans Unternehmen zusammen mit google, Meta Platforms Inc. und einer Handvoll anderer großer Firmen, die sogenannte Basismodelle herstellen, stärken. Sie könnten zu den wenigen werden, die es sich leisten können, die Hochschulausbildung von AI zu finanzieren.
OpenAI hat seine Trainingsdaten für GPT-4 geheim gehalten. Aber für frühere Versionen wurde ein Online-Korpus aus Tausenden von selbstveröffentlichten Büchern verwendet, von denen viele auf Liebesromane und Vampirromane ausgerichtet waren. Wissenschaftler haben herausgefunden, dass viele populäre Bücher, die ihren Weg online gefunden haben, wie die Harry-Potter-Reihe, wahrscheinlich auch in GPT-4 enthalten sind, was in der Buchverlagswelt zu Diskussionen darüber geführt hat, ob ihre riesigen Archive als nächstes Übungsgelände dienen könnten – wenn KI-Unternehmen bereit sind zu zahlen.
Gibt es bessere Professoren für ChatGPT als wissenschaftliche Bücher und Zeitschriften mit ihrem geballten Fachwissen in den Bereichen Wirtschaft, Medizin, Wirtschaftswissenschaften und mehr?
Seit Monaten wird im KI-Bereich darüber gestritten, dass ein großer Teil der Trainingsdaten von GPT-4 von Reddit stammt. Letzten Monat gab das beliebte Internetforum dann bekannt, dass es damit beginnen werde, den Unternehmen Gebühren für den Zugang zu seinem Gesprächsschatz zu berechnen. Laut Dan Conway, CEO der UK Publishers Association, fragten sich einige Buchverleger, ob sie das Gleiche auch für ihre bisherigen Arbeiten tun könnten. „Das ist ein sehr lebendiges Gespräch“, sagt er. „Ein Teil der Diskussion, die geführt werden muss, ist die Frage, wie die Lizenzierung von Inhalten funktioniert.“
Dies ist nicht nur Wunschdenken, denn OpenAI muss möglicherweise über das öffentliche Internet hinausschauen, um die nächste Iteration von ChatGPT zu lehren. Die Online-Datensätze, auf denen trainiert wurde, enthielten schon immer recht zuverlässige Daten. Aber jetzt, da ChatGPT eine öffentliche Sensation ist, werden diese Datensätze mit Junk-Daten gespammt, die darauf abzielen, die Ergebnisse eines Chatbots zu verfälschen – auf die gleiche Weise, wie SEO-Spam die Google-Ergebnisse verzerrt. OpenAI muss möglicherweise weiter in die Zukunft blicken und anfangen, für die nächste Schulungsrunde zu zahlen.
Das Unternehmen ist nicht der einzige potenzielle Käufer. Andere, die ihre eigenen Sprachmodelle erstellen möchten, benötigen jetzt auch mehr Daten. Laut Brad Schneider, dem CEO von Nomad, haben insbesondere Investmentbanken, die ihren Kunden dabei helfen wollen, eine intelligentere Anlageanalyse durchzuführen, hochentwickelte Chatbots entwickelt und sie mit Daten von Unternehmen aus der Versicherungs-, Fracht-, Telekommunikations- und Einzelhandelsbranche geschult Online-Marktplatz für Daten.
Praktisch niemand außerhalb der großen Technologiefirmen wie OpenAI und Google erstellt tatsächlich die zugrunde liegenden Sprachmodelle von Grund auf, aber viele Unternehmen kaufen Zugriff auf diese Modelle, wie etwa GPT-4, und optimieren sie dann mit speziellen Daten für ihre eigenen Zwecke. (Offenlegung: Bloomberg hat ein eigenes Sprachmodell für Finanzen angekündigt, das wahrscheinlich mit GPT-4 von OpenAI konkurrieren wird.)
Schneider sagt, dass vor drei Monaten praktisch niemand Daten kaufte, um Sprachmodelle auf diese Weise zu trainieren. Mittlerweile machen diese Transaktionen etwa 15 % des Gesamtvolumens auf seiner Plattform aus, wobei die Preise zwischen Zehntausenden und Millionen Dollar liegen. Unternehmen mit einzigartigen Daten, die sehr gefragt sind – etwa Daten, die einem KI-Tool bei der Softwareprogrammierung helfen können – haben tendenziell eine bessere Verkaufsposition, fügt Schneider hinzu.
In gewisser Hinsicht deutet dies alles auf einen florierenden Datenmarkt hin. In ein oder zwei Jahren könnte eine Reihe von Versicherungsfirmen, Banken und Medizinunternehmen Daten kaufen und verkaufen, um spezialisierte Alternativen zu ChatGPT zu entwickeln.
Aber dieser Markt könnte sich auch in eine dunklere Richtung entwickeln – in eine Richtung, die von etablierten Technologieunternehmen dominiert wird. Das hängt davon ab, ob OpenAI und Google Sprachmodelle entwickeln, die alles für jeden tun können – eine Art Schweizer Taschenmesserversion von ChatGPT mit Fachwissen zu einer Reihe von Themen. Mit anderen Worten: Allzweck-Bots könnten die Nischen-Bots ersetzen, und wenn die Datenpreise zu hoch werden, würde das auch den Aufbau dieser Nischen-Bots erschweren.
Die größeren Technologieunternehmen „werden immer in der Lage sein, mehr für Rechenleistung auszugeben.“ [and data] als wir können“, sagt Keith Peiris, Mitbegründer und CEO von Tome, einem KI-Tool zur Generierung von Geschichten. „Die Chancen stehen gut, dass sie aufgrund des Kapitals gewinnen werden, nicht unbedingt aufgrund der Innovation.“
Das ist seit Jahren die Geschichte von Big Tech, und es ist unwahrscheinlich, dass sich daran jetzt etwas ändert.
Mehr aus der Bloomberg-Meinung:
• Das Zeitalter der Mimikry der KI wird menschliche Pantomimen zum Weinen bringen: Parmy Olson
• Würden Sie Elon Musk ein Gerät in Ihr Gehirn implantieren lassen?: Tyler Cowen
• KI-Kingpins haben globale Regelmacher im Griff: Dave Lee
Diese Kolumne spiegelt nicht unbedingt die Meinung der Redaktion oder von Bloomberg LP und seinen Eigentümern wider.
Parmy Olson ist Kolumnist bei Bloomberg Opinion und befasst sich mit Technologie. Als ehemalige Reporterin für das Wall Street Journal und Forbes ist sie Autorin von „We Are Anonymous“.
Weitere Geschichten wie diese finden Sie unter Bloomberg.com/opinion