Die KI-Technologie entwickelt sich rasant. chatgpt ist zum geworden am schnellsten wachsender Online-Dienst in der Geschichte. google und Microsoft integrieren generative KI in ihre Produkte. Und die Staats- und Regierungschefs der Welt begrüßen KI begeistert als Werkzeug für Wirtschaftswachstum.

Wenn wir über ChatGPT und Bard hinausgehen, werden wir wahrscheinlich feststellen, dass KI-Chatbots weniger allgemein und spezialisierter werden. KIs sind durch die Daten, denen sie ausgesetzt sind, begrenzt, um ihre Arbeit zu verbessern – in diesem Fall die Nachahmung menschlicher Sprache und die Bereitstellung nützlicher Antworten für Benutzer.

Beim Training geht das Netz oft weit auseinander KI-Systeme absorbieren Tausende von Büchern und Webseiten. Aber ein ausgewählterer, fokussierterer Satz an Trainingsdaten könnte KI-Chatbots für Menschen, die in bestimmten Branchen arbeiten oder in bestimmten Gegenden leben, noch nützlicher machen.

Der Wert von Daten

Ein wichtiger Faktor in dieser Entwicklung werden die steigenden Kosten für die Sammlung von Trainingsdaten für fortgeschrittene große Sprachmodelle (LLMs) sein, die Art von KI, die ChatGPT antreibt. Unternehmen wissen, dass Daten wertvoll sind: Meta und Google verdienen Milliarden mit dem Verkauf von Anzeigen, die auf Nutzerdaten ausgerichtet sind. Aber der Wert von Daten ist jetzt Ändern. Meta und Google verkaufen Daten-„Insights“; Sie investieren in Analysen, um viele Datenpunkte in Vorhersagen über Benutzer umzuwandeln.

Daten sind für OpenAI – den Entwickler von ChatGPT – auf eine subtil andere Art und Weise wertvoll. Stellen Sie sich einen Tweet vor: „Die Katze saß auf der Matte.“ Dieser Tweet ist für gezielte Werbetreibende nicht wertvoll. Es sagt wenig über einen Benutzer oder seine Interessen aus. Vielleicht könnte es auf einen Schlag Interesse an Katzenfutter und Dr. Suess wecken.

Siehe auch  ChatGPT hat die falsche Antwort erhalten. Kono Taro ist Japans Premierminister. Digitalminister glaubt, dass KI Vorzüge hat – ezone.hk – Technology Focus – Tech Cars

Aber für OpenAI, das LLMs entwickelt, um menschenähnliche Sprache zu produzieren, ist dieser Tweet ein wertvolles Beispiel dafür, wie menschliche Sprache funktioniert. Ein einzelner Tweet kann einer KI nicht beibringen, Sätze zu bilden, aber Milliarden von Tweets, Blogposts, Wikipedia-Einträgen usw. können dies sicherlich. Beispielsweise wurde das fortschrittliche LLM GPT-4 wahrscheinlich mithilfe von Daten erstellt, die von X (ehemals Twitter), Reddit, Wikipedia und anderen stammen.

Die KI-Revolution verändert das Geschäftsmodell für datenreiche Unternehmen. Unternehmen wie Meta und Google waren es Investitionen in KI-Forschung und -Entwicklung seit mehreren Jahren, während sie versuchen, ihre Datenressourcen auszunutzen.

Organisationen wie X Und Reddit haben damit begonnen, Dritten den API-Zugriff in Rechnung zu stellen, das System, mit dem Daten von diesen Websites extrahiert werden. Daten-Scraping kostet Unternehmen wie X Geld, da sie muss mehr für Rechenleistung ausgeben um Datenanfragen zu erfüllen.

Da Organisationen wie OpenAI in Zukunft leistungsfähigere Versionen ihres GPT-LLM entwickeln möchten, werden sie mit höheren Kosten für die Datenbeschaffung konfrontiert sein. Eine Lösung für dieses Problem könnten synthetische Daten sein.

Werden synthetisch

Synthetische Daten sind von KI-Systemen von Grund auf erstellt Fortgeschrittenere KI-Systeme zu trainieren – damit sie besser werden. Sie sollen die gleiche Aufgabe erfüllen wie echte Trainingsdaten, werden jedoch von KI generiert.

Es ist eine neue Idee, die jedoch mit vielen Problemen konfrontiert ist. Gute synthetische Daten müssen vorhanden sein ausreichend von den Originaldaten abweichen Es basiert darauf, um dem Modell etwas Neues zu sagen, und ist gleichzeitig ähnlich genug, um ihm etwas Genaues zu sagen. Dies kann schwierig zu erreichen sein. Wo synthetische Daten sind einfach überzeugende Kopien Wenn man Daten aus der realen Welt verwendet, kann es sein, dass die daraus resultierenden KI-Modelle Probleme mit der Kreativität haben und bestehende Vorurteile festigen.

Siehe auch  Der CEO von ChatGPT sagte japanischen Studenten, dass sich die künstliche Intelligenz weiterentwickeln werde

Ein weiteres Problem ist das Problem der „Hapsburger KI“.. Dies deutet darauf hin, dass das Training der KI auf der Grundlage synthetischer Daten zu einem Rückgang der Wirksamkeit dieser Systeme führen wird – daher die Analogie mit der berüchtigten Inzucht der habsburgischen Königsfamilie. Einige Studien schlagen vor, dass dies bereits bei Systemen wie ChatGPT geschieht.


Weiterlesen: Amazon setzt stark auf den ChatGPT-Herausforderer Anthropic


Ein Grund, warum ChatGPT so gut ist, ist, dass es verwendet wird Verstärkungslernen mit menschlichem Feedback (RLHF), wo die Ergebnisse anhand der Genauigkeit bewertet werden. Wenn von einer KI generierte synthetische Daten Ungenauigkeiten aufweisen, sind die auf diesen Daten trainierten KI-Modelle selbst ungenau. Daher dürfte die Nachfrage nach menschlichem Feedback zur Korrektur dieser Ungenauigkeiten zunehmen.

Während jedoch die meisten Menschen in der Lage wären, zu sagen, ob ein Satz grammatikalisch korrekt ist, wären weniger Menschen in der Lage, sich zu seiner sachlichen Richtigkeit zu äußern – insbesondere, wenn die Ausgabe technischer oder spezieller Natur ist. Ungenaue Ergebnisse zu Fachthemen werden von RLHF weniger wahrscheinlich erkannt. Wenn synthetische Daten bedeuten, dass es mehr Ungenauigkeiten zu erkennen gibt, kann die Qualität von Allzweck-LLMs ins Stocken geraten oder sinken, selbst wenn diese Modelle mehr „lernen“.

Kleine Sprachmodelle

Diese Probleme helfen, einige aufkommende Trends in der KI zu erklären. Google-Ingenieure haben herausgefunden, dass Dritte kaum daran gehindert werden können LLMs neu erstellen wie GPT-3 oder Googles LaMDA AI. Viele Organisationen könnten ihre eigenen internen KI-Systeme aufbauen, die ihre eigenen speziellen Daten für ihre eigenen Ziele verwenden. Diese werden für diese Organisationen auf lange Sicht wahrscheinlich wertvoller sein als ChatGPT.

Siehe auch  Die Gegner von ChatGPT werden von Tag zu Tag schlauer

Kürzlich stellte die japanische Regierung fest, dass die Entwicklung eines Japan-zentrierte Version von ChatGPT ist potenziell lohnenswert für ihre KI-Strategie, da ChatGPT nicht ausreichend repräsentativ für Japan ist. Das Softwareunternehmen SAP hat kürzlich seine KI-„Roadmap“ veröffentlicht um professionellen Organisationen KI-Entwicklungsfunktionen anzubieten. Dadurch wird es für Unternehmen einfacher, ihre eigenen, maßgeschneiderten Versionen von ChatGPT zu erstellen.

Beratungsunternehmen wie z McKinsey Und KPMG erforschen das Training von KI-Modellen für „bestimmte Zwecke“. Anleitungen dazu Erstellen Sie private, persönliche Versionen von ChatGPT können problemlos online gefunden werden. Open-Source-Systeme, wie z GPT4Allexistieren bereits.

Da die Entwicklungsherausforderungen – gepaart mit potenziellen regulatorischen Hürden – für generische LLMs zunehmen, ist es möglich, dass die Zukunft der KI eher aus vielen spezifischen kleinen als großen Sprachmodellen bestehen wird. Kleine Sprachmodelle könnten Schwierigkeiten haben, wenn sie auf weniger Daten trainiert werden als Systeme wie GPT-4.

Sie könnten aber auch im Hinblick auf RLHF einen Vorteil haben, da wahrscheinlich nur wenige Sprachmodelle für bestimmte Zwecke entwickelt werden. Mitarbeiter, die über Expertenwissen über ihre Organisation und ihre Ziele verfügen, können solchen KI-Systemen viel wertvolleres Feedback geben als allgemeines Feedback für ein generisches KI-System. Dadurch können die Nachteile weniger Daten überwunden werden.


Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein