Ohne Ankündigung hat OpenAI kürzlich Details zu seinem Webcrawler hinzugefügt, GPTBot, zur Online-Dokumentationsseite. GPTBot ist der Name des Benutzeragenten, mit dem das Unternehmen Webseiten abruft, um die KI-Modelle hinter chatgpt zu trainieren, beispielsweise GPT-4. Anfang dieser Woche einige Websites gaben schnell ihre Absicht bekannt um den Zugriff von GPTBot auf ihre Inhalte zu blockieren.
In der neuen Dokumentation sagt OpenAI, dass mit GPTBot gecrawlte Webseiten „potenziell zur Verbesserung zukünftiger Modelle verwendet werden können“ und dass der Zugriff von GPTBot auf Ihre Website „KI-Modellen dabei helfen kann, genauer zu werden und ihre allgemeinen Fähigkeiten und Sicherheit zu verbessern“.
OpenAI gibt an, Filter implementiert zu haben, die sicherstellen, dass GPTBot nicht auf Quellen hinter Paywalls, Personen, die personenbezogene Daten sammeln, oder Inhalte, die gegen die Richtlinien von OpenAI verstoßen, zugreifen kann.
Die Nachricht, dass die Trainingsdaten von OpenAI möglicherweise blockiert werden können (sofern sie diese respektieren), kommt zu spät, um Auswirkungen auf die aktuellen Trainingsdaten von ChatGPT oder GPT-4 zu haben, die vor Jahren ohne Ankündigung gelöscht wurden. OpenAI hat die Daten bis September 2021 gesammelt, was dem aktuellen „Wissens“-Grenzwert für die Sprachmodelle von OpenAI entspricht.
Es ist erwähnenswert, dass die neuen Anweisungen nicht dürfen Verhindern Sie, dass Webbrowser-Versionen von ChatGPT oder ChatGPT-Plugins auf aktuelle Websites zugreifen, um aktuelle Informationen an den Benutzer weiterzugeben. Dieser Punkt wurde in der Dokumentation nicht näher erläutert und wir haben uns zur Klärung an OpenAI gewandt.
Die Antwort liegt in robots.txt
Laut OpenAI DokumentationGPTBot ist anhand des Benutzeragenten-Tokens „GPTBot“ identifizierbar, dessen vollständige Zeichenfolge „Mozilla/5.0 AppleWebKit/537.36 (KHTML, wie Gecko; kompatibel; GPTBot/1.0; +https://openai.com/gptbot)“ lautet. .
Die OpenAI-Dokumente enthalten auch Anweisungen dazu, wie GPTBot daran gehindert werden kann, Websites mithilfe des Industriestandards zu crawlen robots.txt Dabei handelt es sich um eine Textdatei, die sich im Stammverzeichnis einer Website befindet und Webcrawler (z. B. solche, die von Suchmaschinen verwendet werden) anweist, die Website nicht zu indizieren.
Es ist so einfach wie das Hinzufügen dieser beiden Zeilen zur robots.txt-Datei einer Website:
User-agent: GPTBot Disallow: /
OpenAI sagt auch, dass Administratoren GPTBot mit verschiedenen Token von bestimmten Teilen der Website in robots.txt einschränken können:
User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/
Darüber hinaus hat OpenAI Folgendes bereitgestellt bestimmte IP-Adressblöcke von dem aus der GPTBot betrieben wird, der ebenfalls durch Firewalls blockiert werden könnte.
Trotz dieser Option ist das Blockieren von GPTBot keine Garantie dafür, dass die Daten einer Website letztendlich nicht alle KI-Modelle der Zukunft trainieren. Abgesehen von Problemen, bei denen Scraper robots.txt-Dateien ignorieren, gibt es noch andere große Datensätze von gescrapten Websites (z. B Der Stapel), die nicht mit OpenAI verbunden sind. Diese Datensätze werden häufig zum Trainieren von Open-Source-LLMs (oder quellverfügbaren LLMs) wie Metas Llama 2 verwendet.
Einige Seiten reagieren mit Eile
Während ChatGPT aus technischer Sicht äußerst erfolgreich war, war es auch umstritten, weil es ohne Erlaubnis urheberrechtlich geschützte Daten scrapfte und diesen Wert in einem kommerziellen Produkt konzentrierte, das das typische Online-Veröffentlichungsmodell umgeht. OpenAI wurde in diesem Sinne Plagiat vorgeworfen (und verklagt).
Dementsprechend ist es nicht verwunderlich, dass einige Leute auf die Nachricht, dass sie ihre Inhalte möglicherweise von zukünftigen GPT-Modellen blockieren können, mit einer Art Aufstau reagieren genießen. Zum Beispiel am Dienstag, VentureBeat notiert Das Der RandSubstack-Autor Casey NewtonUnd Neil Clarke von Clarkesworld sagten alle, sie würden GPTBot blockieren, sobald die Nachricht über den Bot bekannt wurde.
Für große Website-Betreiber ist die Entscheidung, LLM-Crawler (Large Language Model) zu blockieren, jedoch nicht so einfach, wie es scheint. Wenn man einige LLMs für bestimmte Website-Daten blind macht, entstehen Wissenslücken, die einigen Websites sehr nützlich sein könnten (z. B. Websites, die keine Besucher verlieren möchten, wenn ChatGPT ihre Informationen für sie bereitstellt), aber es kann auch anderen schaden. Beispielsweise könnte das Blockieren von Inhalten künftiger KI-Modelle den kulturellen Fußabdruck einer Website oder einer Marke verringern, wenn KI-Chatbots in Zukunft zu einer primären Benutzeroberfläche werden. Stellen Sie sich als Gedankenexperiment vor, dass ein Online-Unternehmen im Jahr 2002 erklärte, es wolle nicht, dass seine Website von google indexiert werde – ein selbstzerstörerischer Schachzug, da dies der beliebteste Einstieg in die Online-Suche nach Informationen war.
Es ist noch am Anfang des generativen KI-Spiels, und egal, welchen Weg die Technologie einschlägt – oder welche einzelnen Standorte versuchen, sich vom KI-Modelltraining abzumelden – OpenAI bietet zumindest die Option.