Möchten Sie verhindern, dass OpenAI Ihre Inhalte lesen und zum Trainieren seines Sprachmodells verwenden kann? Möchten Sie verhindern, dass der OpenAI GPTbot-Crawler auf Ihre Webseiten und online veröffentlichten Artikel zugreift? So können Sie ganz einfach den GPTbot-Crawler blockieren, der die nächsten GPT-Modelle mit neuen Trainingsdaten versorgt.
Gptbot Openai

Was ist GPTbot?

Von OpenAI im August 2023 vorgestellt, GPTBot ist ein Roboter zur Erkundung des Webs (Webcrawler), dessen Hauptziel ist Erfassen Sie öffentlich verfügbare Daten im gesamten Internet, um die Fähigkeiten zukünftiger GPT-KI-Modelle zu verbessern.

Durch das Sammeln und Aggregieren von Daten aus viel größeren Datenquellen als denen, die für das anfängliche Training verwendet wurden, wird GPTBot es KI-Systemen ermöglichen, Antworten zu generieren, die präziser und detaillierter sind.

Diese neuen Datenquellen können GPT-Modellen auch dabei helfen, relevantere Antworten auf Tätigkeitsbereiche zu liefern, für die die Trainingsdaten bisher zu begrenzt waren.

Wie funktioniert GPTbot? Auf welche Inhalte wird er Zugriff haben?

GPTBot durchsucht Websites von Link zu Link, um auf öffentlich verfügbare Inhalte aus interessanten Quellen zuzugreifen und diese abzurufen.

Es muss jedoch darauf hingewiesen werden, dass GPTBot nicht dafür konzipiert wurde, Inhalte abzurufen, die nur für abonnierte oder verbundene Benutzer zugänglich sind. Alle Websites, die eine Paywall nutzen, werden so automatisch vor dem OpenAI-Crawler geschützt, ohne dass sie etwas unternehmen müssen..

Siehe auch  HBO-Manager Casey Bloys möchte „im Ruhestand“ sein, wenn ChatGPT übernimmt – IndieWire

greift nicht in private oder eingeschränkte Inhalte ein. Unter Einhaltung ethischer Richtlinien respektiert der Roboter die Grenzen der Zugänglichkeit von Inhalten.

Warum den Crawler von OpenAI blockieren?

Hier sind einige Gründe, warum einige Website-Redakteure dies wünschen könnten Blockieren Sie den Webcrawler von OpenAI :

  1. Geistiges Eigentum und Urheberrecht : Einige Websites möchten möglicherweise nicht, dass ihre Inhalte ohne Vergütung oder Erlaubnis zur Schulung eines Geschäftsmodells verwendet werden.
  2. Vertraulichkeit : Websites, die sensible oder private Daten hosten, befürchten möglicherweise, dass diese Daten abgesaugt werden, selbst wenn der Crawler diese Art von Inhalten ausschließen soll.
  3. Inhaltsintegrität : Herausgeber befürchten möglicherweise, dass Inhalte falsch interpretiert oder missbraucht werden, was zu Fehlinformationen oder unethischer Verwendung führt.
  4. Philosophie open web : Besitzer von Open-Source-Websites könnten feststellen, dass die zu kommerziellen Zwecken gesammelten Daten nicht mit ihrer Ideologie eines freien und offenen Webs vereinbar sind.
  5. Bedenken hinsichtlich Monopolen : Einige Verlage haben möglicherweise Bedenken hinsichtlich der Macht- und Einflusskonzentration in den Händen einiger weniger großer Technologieunternehmen und möchten möglicherweise nicht zu deren Wachstum beitragen.

Wie kann verhindert werden, dass GPTbot ohne Ihre Zustimmung auf Ihre Website zugreift und Ihre Inhalte verwendet?

Gießen Verhindern Sie, dass GPTbot auf Inhalte auf Ihrer Website zugreift und diese nutztdu musst es nur tunFügen Sie der Textdatei robots.txt einige Codezeilen hinzu verfügbar im Stammverzeichnis Ihrer Website:

User-agent: GPTBot
Disallow: /

Diese Anweisung zeigt dem Crawler effektiv an, dass dies nicht der Fall ist Es ist Ihnen nicht gestattet, alle Seiten Ihrer Website zu durchsuchen.

Wenn Sie den Webcrawler auf einen oder mehrere bestimmte Teile Ihrer Website beschränken möchten, müssen Sie diese Regel anpassen, um die spezifischen Verzeichnisse zu öffnen und den Zugriff auf den Rest zu sperren.

Siehe auch  Der Erfolg von ChatGPT und der Zusammenbruch der Banken: Was im ersten Halbjahr an der Börse passierte

Hier ist ein Beispiel für das Blockieren eines Verzeichnisses und das Zulassen eines anderen:

User-agent: GPTBot
Allow: /actualites/
Disallow: /dossiers/

Im obigen Beispiel ist der Ordner /news/ zur Erkundung geöffnet, während der zweite Ordner, /dossiers/, blockiert ist.

Hier ist ein Beispiel für eine robots.txt-Konfiguration, die den Zugriff von GPTbot auf die gesamte Mediapart-Site blockiert:

Beispiel Für Die Robots.txt Von Mediapart, Die Den Zugriff Auf Openai (Gptbot) Blockiert
Beispiel für die robots.txt von Mediapart, die den Zugriff auf OpenAI (GPTbot) blockiert

Warum reicht das Blockieren von GPTbot nicht aus, um Ihre Inhalte wirklich vor KI zu schützen?

Obwohl die Tatsache OpenAI-Crawler blockieren ist ein erster Schritt, der interessant erscheint, um die Nutzung Ihrer Inhalte ohne Ihre Zustimmung durch eines der wichtigsten großen Sprachmodelle der Welt zu schützen. Googles SGE- (Search Generative Experience) und Bard-Projektewas eine viel direktere Auswirkung auf Content-Publisher haben wird, Blockieren Sie derzeit nicht die Möglichkeit für google, Ihre Inhalte ohne Ihre Zustimmung wiederzuverwenden.

Das Gleiche gilt für die vielen anderen LLM-Projekte, die es derzeit ebenfalls nicht zulassen, dass Ihre Website von Trainingsdaten ausgeschlossen wird (und es gibt weit über ein Dutzend).

Andererseits schützt Sie das Blockieren des GPTbot-Roboters in Ihrer robots.txt auch nicht vollständig vor OpenAI und chatgpt. Wofür ? Ganz einfach, weil es Benutzer nicht daran hindert, Ihre Inhalte zu nutzen, um die KI manuell zu füttern und dann dank Ihrer Inhalte eine konkrete Reaktion zu erhalten.

Also, Der Schutz vor dem GPTbot von OpenAI schützt Sie derzeit nur teilweise vor der Wiederverwendung Ihrer Website-Daten ohne Ihre Zustimmung durch ein System der künstlichen Intelligenz

Es bleibt abzuwarten, ob Google und die anderen LLMs diese Option zum Ausschluss bestimmter Publisher auch in zukünftigen Versionen ihrer Dienste zulassen werden …

Siehe auch  Klage könnte ChatGPT zwingen, alle Daten zu löschen | Informationszeitalter

Vor dem Verlassen…

Wenn dieser Artikel auf Blockieren des GPTbot-Crawlers in der robots.txt Es hat Ihnen gefallen, zögern Sie nicht, es in sozialen Netzwerken zu teilen und zu teilen Abonnieren Sie unseren digitalen Newsletter um unsere nächsten Artikel zu erhalten.

Sie können unsere besten Artikel auch über unseren RSS-Feed verfolgen: https://www.leptidigital.fr/tag/newsletter-digitale/feed/ (fügen Sie ihn einfach in Ihren bevorzugten RSS-Feed-Reader (z. B. Feedly) ein).

Wir sind auch auf LinkedIn, Twitter, Facebook und YouTube aktiv. Wir sehen uns dort?

Wenn Sie Fragen zu diesem Artikel haben, zögern Sie nicht, uns über den Bereich „Kommentare“ Ihre Bemerkung zu senden. Wir werden Ihnen so schnell wie möglich antworten (gerne).

Sie möchten erhalten Unsere besten Artikel ?

(Sie können sich jederzeit abmelden.)

Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein