KI ist ausgeklügelt, aber nicht wirklich intelligent. Die heutigen großen Sprachmodelle, die zum Betreiben von Programmen wie ChatGPT verwendet werden, sind Zusammenschlüsse von im Internet gefundenem Scraped-Text. Also wann Meta stellte seine „state of the art“ LLaMA AI vor Bereits im Februar richteten sich die Augen auf einige der DatenSets verwendet, um es zu trainieren, insbesondere das von Google hergestellte „Kolossal sauber gecrawlter Korpus“, oder C4. Es stellt sich heraus, dass, wie sein Namensvetter, ein Teil des abgekratzten Textes wirklich durchbrennt.

Wie explosiv ist dieser C4-Datensatz? Eine Analyse der geschabten Daten aus Die Washington Post Mittwochsshows C4 verließ sich hauptsächlich auf einige abscheuliche Quellen für seinen Text. Die vier meistgenutzten Websites waren Google Patents (das 0,46 % aller Token ausmacht), Wikipedia (0,19 %), Scribd (0,07 %) und die Website der New York Times (0,06 %). Gleichzeitig nutzte C4 große Schwadens Text von der russischen Propagandaseite Russland heute und die Ultra-Rechts-Flügel Breitbart. Beide gehörten zu den Top 200 Websites, die nach Text durchforstet wurden.

Die Post arbeitete mit Forschern des Allen Institute for AI zusammen, die den Datensatz neu erstellt. Einige Websites sind in den Trainingsdaten weitaus weniger präsent, zeichnen sich jedoch durch ihren grausamen Inhalt aus. Sturmfronteine Website für weiße Supremacisten, wurde in die Daten aufgenommen und erreichte Platz 27.505. Kiwi-Farmendie Website, die für ihre abscheulichen Online-Belästigungskampagnen bekannt ist, machte 0,00004 % der Token aus. 4 Kanäle, und all seine wilden Verschwörungstheorien, wurde ebenfalls in die Daten aufgenommen, obwohl es auf dem niedrigen 484.297. Platz rangiert. Es gibt andere kleine Fälle von Text, der von Websites geschabt wurde, die Verschwörungen, Pornos und Hassinhalte fördern. Meta und Google reagierten nicht sofort auf Anfragen nach Kommentaren.

Siehe auch  Twitter stellt „empathischeren“ Prozess für missbräuchliche Tweets vor

Darüber hinaus wurden für die Trainingsdaten Daten von einer halben Million persönlicher Blogs von Websites wie Medium, Blogspot und WordPress verwendet. Der Datensatz enthält Text von Kickstarter, Etsy und Patreon, der den Text und Stil von Personen erfasst, die ihre Arbeit online bewerben. Zwei der größten gescrapeden Websites enthielten Wählerregistrierungsdatenbanken für Colorado und Florida. Obwohl es sich bei beiden Seiten technisch gesehen um öffentliche Informationen handelt, haben die Daten möglicherweise die Daten von Privatpersonen geschrottet.

Dieser spezielle Datensatz wurde für andere große KI-Projekte als Metas LLaMA verwendet, wie z Googles T5 Text-zu-Text-AI-Transformer-Modell. Laut Google, C4 wurde ursprünglich vom Unternehmen als „bereinigte Version“ der gemeinnützigen Organisation entwickelt KI-Trainingsdaten von Common Crawl. Google sagte, es habe anstößige oder „laute“ Inhalte aus dem Datensatz entfernt, einschließlich schmutziger Sprache und anstößiger Beleidigungen. Googles LaMDA-KIwofür verwendet wird der Bard-Chatbot des Unternehmens, ist so etwas wie eine Blackbox. Es wurde mit einem Datensatz namens Infiniset trainiert, der als 1,56 Billionen Dialoge (im Kontext verwendete Wörter) beschrieben wird, von denen 50 % aus öffentlichen Foren stammen. Weitere 12,5 % des Trainingssatzes sind C4-Daten, während der Rest aus englischsprachiger Wikipedia und anderen Webdokumenten stammt.

Entsprechend der Forschungsbericht 15 % der Daten vor dem Training, die zusammen mit LLaMA veröffentlicht wurden, stammten von C4. Weitere 67 % stammen aus gefilterten CommonCrawl-Dumps von 2017 bis 2020. Der Rest der Daten stammt direkt von Websites wie Wikipedia, dem Gutenberg-Projekt und GitHub. Letztes Jahr, Ein Programmierer verklagte GitHub wegen seines KI-Assistenten-Tools Er sagte, es würde seine und die Arbeit anderer Programmierer ohne Erlaubnis nehmen.

Der Bericht der Post ist umso aufschlussreicher, wenn man bedenkt, wie schwierig es ist, tatsächlich Informationen über KI-Training zu finden. OpenAI hat kein einziges nacktes Detail seines GPT-4 LLM preisgegeben veröffentlicht im letzten Monat, unter Berufung auf die „Wettbewerbslandschaft“ der KI-Entwicklung. Zu wissen, was in das Training einfließt, kann hilfreich sein Erklären Sie die bestimmten Verzerrungen der Ergebnisse. Forscher haben kürzlich gezeigt, wie ChatGPT kann verwendet werden, um offen rassistische Antworten zu produzieren durch ein einfaches Prompt-Engineering.

Siehe auch  12 wilde Momente von Trumps historischem Anklagetag

Das Allen Institute schloss auch ihre ein eigene Suchfunktion damit Benutzer sehen können, ob C4 ihren Text verwendet hat. Eine schnelle Suche nach „Gizmodo“ zeigt, dass der Datensatz zu Tausenden gekratzt wurde von Artikeln von und über unsere Website aus den 2010er Jahren. Laut der Zählung der Post liegt unsere Seite nur auf Platz 275 im Vergleich zu RT und Breitbart.


Möchten Sie mehr über KI, Chatbots und die Zukunft des maschinellen Lernens erfahren? Schauen Sie sich unsere vollständige Berichterstattung über an künstliche Intelligenzoder stöbern Sie in unseren Leitfäden zu Die besten kostenlosen KI-Kunstgeneratoren, Die besten ChatGPT-Alternativen, Und Alles, was wir über ChatGPT von OpenAI wissen.

Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein