Ob die Idee, Neuigkeiten von einem KI-Chatbot zu erhalten, Sie erschreckt oder begeistert, und eine neue Studie von Originalität.ai fügt der Mischung eine neue Falte hinzu: Viele der führenden Publikationen des Landes blockieren chatgpt und andere KI-Modelle bei der Nutzung ihrer Inhalte.

Die Liste enthält BBC, Bloomberg, Forbes, The New York Times, NPR, Reuters,Das Wall Street Journal, Der Rand, und viele mehr. Es beschränkt sich auch nicht nur auf Veröffentlichungen; Andere Websites wie Amazon, Facebook, Rotten Tomatoes und Shutterstock tun dies ebenfalls.

Das bedeutet, dass ChatGPT und Konkurrenten wie google Bard oder Anthropic über einen kleineren Pool an Inhalten verfügen, die Ihnen bereitgestellt werden können, wenn Sie eine Frage stellen. KI-Modelle sind nicht so allwissend, wie wir vielleicht denken, da Websites Webcrawler auf einfache und unkomplizierte Weise daran hindern, ihre Inhalte zu scannen und zu verwenden.

Dies hilft ihnen zu kontrollieren, wie ihre Inhalte verwendet und präsentiert werden, und das ist besonders wichtig, da KI-Unternehmen nicht verpflichtet sind, die Quelle für die Nutzung der Inhalte zu bezahlen oder sogar darauf zu verlinken. Doch dieser weitreichende Ausstieg aus wichtigen Nachrichtenpublikationen könnte zu voreingenommenen Antworten oder zumindest zu blinden Flecken in den Informationen führen, die generative KI präsentieren kann.


Das Blockieren von KI-Crawlern ist überraschend einfach

Um zu verhindern, dass ein KI-Crawler eine Website scannt, muss das Technikteam der Website nur ein paar einfache Codezeilen zu einer sogenannten robots.txt-Datei hinzufügen. Diese Methode ist nicht neu; Es handelt sich um eine etablierte Methode für die Site-Sicherheit, die Verwaltung von Servern und die Steuerung des Inhaltsflusses.

Siehe auch  Sie wissen noch nicht, wie Sie ChatGPT verwenden? Dann müssen Sie diese heimischen Schatz-KI-Tools kennen! |KI-Tools|AI_Sina Technology_Sina.com

Nehmen Sie zum Beispiel PCMag. Anschauen https://www.pcmag.com/robots.txt enthüllt, dass wir sowohl den GPT-Bot von OpenAI als auch Google Extended blockiert haben. So sieht es aus:

User-Agent:

GPTBot nicht zulassen: /

User-Agent:

Google-Extended Disallow: /

Aus diesem Grund lehnte ChatGPT ab, als ich es bat, auf einen meiner Artikel von der CES 2024 zu verweisen. „Aufgrund von Einschränkungen auf der Website kann ich nicht auf die spezifischen Artikel zugreifen“, hieß es. Ich habe dies auf meinem Plus-Konto (20 $ pro Monat) gemacht, da die kostenlose Version von ChatGPT nach Januar 2022 immer noch keine Daten hat und den Artikel daher nicht finden könnte, selbst wenn PCMag ihn nicht blockiert hätte.

Auch blockieren nicht alle Veröffentlichungen dieselben KI-Crawler. Verdrahtet hat mehr als PCMag in seine robots.txt-Dateidarunter einige von Amazon, Claude, Facebook und mehr. Die New York Times hat zum Blockieren ausgewählt viele der gleichen Dienste, plus ein paar weitere, wie Twitterbot. Und merke dir, Die New York Times verklagt OpenAI auch wegen anderer Verwendungen seiner Artikel über das Webcrawlen hinaus, beispielsweise im Schulungsmaterial für seine Modelle, aus denen ChatGPT aufgrund eines Fehlers auch direkte Zitate wiedergeben kann.

Hier ist die Liste der wichtigsten Veröffentlichungen, die den GPTBot von ChatGPT blockiert haben, einschließlich des Datums, an dem sie ihn blockiert haben.

Über ein Drittel (36 %) der Top-100-Websites haben den GPTBot von OpenAI blockiert. Nach GPTBot ist CCBot (15 %) der am zweithäufigsten ausgebremste Crawler, gefolgt von Google Extended (10 %) und Anthropic AI (6 %).

Top 100 Websites, die KI-Crawler blockieren.
(Quelle: Originality.ai)

Rechtsgerichtete Websites blockieren GPTBot weniger wahrscheinlich

Wir wissen also, dass viele große Veröffentlichungen GPTBot und andere KI-Webcrawler auffordern, loszulegen. Die Studie ergab jedoch, dass dies bei vielen anderen nicht der Fall ist, insbesondere bei denen, die sie als „rechtsgerichtet“ einstufte, wie etwa Fox News, Breitbart und NewsMax. Eine Ausnahme bildet der Washington Examiner, der am 17. Januar 2024 mit der Blockierung von GPTBot begann.

Siehe auch  ChatGPT ist der meistgesehene Wikipedia-Artikel im Jahr 2023

Das bedeutet nicht, dass ChatGPT zwangsläufig zu einer rechten Propagandamaschine wird. Als ich den Chatbot fragte, was er von Breitbart halte, antwortete ChaGPT: „Breitbart News ist für seine konservative redaktionelle Haltung bekannt.“ Anschließend wurde die „Kritik und Kontroverse“ rund um die Website erörtert, einschließlich der Tatsache, dass „einige die Zuverlässigkeit und Objektivität der Website in Frage gestellt haben“. (Wikipedia habe es verboten als Tatsachenquelle im Jahr 2018.)

Aber wir wissen es mittlerweile besser, als einem Chatbot zu vertrauen, der keine Ahnung hat, was er eigentlich sagt, also habe ich ihn mit einer politischen Frage geködert: „Was waren die Ergebnisse der GOP-Vorwahlen in New Hampshire?“

In seiner Antwort auf diese Frage zitierte ChatGPT Politico und Al Jazeera. „Ich habe mich entschieden, Politico und Al Jazeera zu zitieren, weil es sich um seriöse Nachrichtenquellen handelt, die vielfältige Perspektiven und eine umfassende Berichterstattung über politische Ereignisse bieten“, sagte ChatGPT, als ich fragte, warum man sich für diese beiden entschieden habe. Weiter hieß es, dass Politico über Expertise in der US-Politik verfügt, während Al Jazeera eine globale Perspektive bietet. Es ist unklar, warum Fox News es nicht geschafft hat, obwohl ChatGPT sich vermutlich nicht für CNN entschieden hat, weil es GPTBot blockiert hat.

Außerhalb von Nachrichtenpublikationen blockieren Websites wie Wikipedia, Reddit, YouTube und X/Twitter GPTBot derzeit nicht. Ihre Inhalte, die in erster Linie benutzergeneriert und oft meinungsbasiert sind, dürfen gerne in die Antworten von ChatGPT aufgenommen werden. Es stellt sich also die Frage: Könnten KI-Chatbots ein Zufluchtsort für meinungslastige, rechte Inhalte werden? Nur die Zeit kann es verraten.

Siehe auch  Der OpenAI-Umsatz explodiert im Jahr 2023 trotz des CEO-Dramas von ChatGPT um 700 %

Vorerst liegt die Verpflichtung beim Leser, weitere Fragen zu stellen und tiefer zu graben, um die Informationen zu validieren. ChatGPT und andere KI-Chatbots können helfen, indem sie die Quelldaten für jeden Satz, den sie schreiben, zuordnen und auf Quellen mit einzigartigen Perspektiven verlinken – vorausgesetzt, sie werden daran nicht gehindert.

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.