Sowohl OpenAI als auch google haben Leitlinien für Websitebesitzer veröffentlicht, die nicht möchten, dass die beiden Unternehmen den Inhalt ihrer Websites zum Trainieren der großen Sprachmodelle (LLMs) des Unternehmens verwenden. Wir sind seit langem Unterstützer der Recht zum Scrapen von Websites– der Prozess, bei dem ein Computer zum Laden und Lesen von Seiten einer Website zur späteren Analyse verwendet wird – als Werkzeug für Forschung, Journalismus und Archivierer. Wir glauben das Praxis ist immer noch Beim Sammeln von Trainingsdaten für generative KI ist die Frage zwar rechtmäßig, aber die Frage, ob etwas illegal sein sollte, unterscheidet sich von der Frage, ob es als unhöflich, unbeholfen oder unangenehm angesehen werden darf. Da sich immer mehr Normen dazu entwickeln, welche Arten des Scrapings und welche Verwendungen der gescrapten Daten als akzeptabel gelten, ist es nützlich, über ein Tool zu verfügen, mit dem Website-Betreiber Crawlern automatisch ihre Präferenz mitteilen können. OpenAI und Google (und alle anderen, die diese Präferenz respektieren) zu bitten, keine Ausschnitte Ihrer Website in ihre Modelle aufzunehmen, ist ein einfacher Vorgang, solange Sie auf die Dateistruktur Ihrer Website zugreifen können.
Wir haben bereits darüber gesprochen, wie diese Modelle verwendet werden Kunst für die Ausbildung, und die allgemeine Idee und der Prozess sind für Text dieselben. Forscher nutzen seit langem aus dem Internet gesammelte Datensammlungen für Studien zu Zensur, Malware, Soziologie, Sprache und anderen Anwendungen, einschließlich generativer KI. Heutzutage sammeln sowohl akademische als auch gewinnorientierte Forscher Trainingsdaten für KI mithilfe von Bots, die das gesamte Web durchsuchen und den Inhalt jeder Website, auf die sie stoßen, „aufsammeln“ oder speichern. Dies könnte zum Erstellen rein textbasierter Tools verwendet werden, oder ein System könnte Bilder sammeln, die möglicherweise mit einem bestimmten Text verknüpft sind, und versuchen, während des Trainings Verbindungen zwischen den Wörtern und den Bildern herzustellen. Das Endergebnis sind, zumindest derzeit, die Chatbots, die wir in Form von Google Bard und chatgpt gesehen haben.
Es würde viele Unternehmen mit ähnlichen KI-Produkten wie Anthropic, Amazon und unzähligen anderen beruhigen, wenn sie ankündigten, dass sie ähnliche Anfragen respektieren würden.
Wenn Sie nicht möchten, dass der Inhalt Ihrer Website für dieses Training verwendet wird, können Sie die von Google und Open AI bereitgestellten Bots bitten, Ihre Website zu überspringen. Beachten Sie, dass dies nur für zukünftiges Schaben gilt. Wenn Google oder OpenAI bereits über Daten von Ihrer Website verfügen, werden diese nicht entfernt. Es hält auch nicht die unzähligen anderen Unternehmen da draußen davon ab, ihre eigenen LLMs auszubilden, und hat keine Auswirkungen auf alles, was Sie an anderer Stelle gepostet haben, etwa in sozialen Netzwerken oder Foren. Es würde auch Modelle nicht stoppen, die auf großen Datensätzen von gecrackten Websites trainiert werden, die nicht mit einem bestimmten Unternehmen verbunden sind. Zum Beispiel GPT-3 und OpenAI Metas LLaMa wurden beide anhand von Daten trainiert meist gesammelt von Common Crawl, einem Open-Source-Archiv großer Teile des Internets, das routinemäßig verwendet wird wichtige Forschung. Du kannst Common Crawl blockierenaber dadurch wird verhindert, dass der Webcrawler Ihre Daten in allen seinen Datensätzen verwendet. Viele davon haben nichts mit KI zu tun haben.
Es gibt keine technische Anforderung, dass ein Bot Ihren Anfragen Folge leisten muss. Derzeit haben nur Google und OpenAI angekündigt, dass dies die Möglichkeit zur Abmeldung ist. Andere KI-Unternehmen kümmern sich daher möglicherweise überhaupt nicht darum oder fügen möglicherweise ihre eigenen Anweisungen zur Abmeldung hinzu. Aber es blockiert auch nicht andere Arten von Scraping, die zu Forschungszwecken oder für andere Zwecke verwendet werden. Wenn Sie also generell Scraping befürworten, aber mit der Verwendung Ihrer Website-Inhalte im KI-Trainingssatz eines Unternehmens nicht einverstanden sind, ist dies der Fall Ein Schritt, den du machen kannst.
Bevor wir zum Wie kommen, müssen wir erklären, was genau Sie dafür bearbeiten werden.
Was ist eine Robots.txt?
Um diese Unternehmen zu bitten, Ihre Website nicht zu crawlen, müssen Sie eine Datei namens „robots.txt“ auf Ihrer Website bearbeiten (oder erstellen). Eine robots.txt ist eine Reihe von Anweisungen für Bots und Webcrawler. Bis zu diesem Zeitpunkt wurde es hauptsächlich dazu verwendet, nützliche Informationen für Suchmaschinen bereitzustellen, während deren Bots das Web durchsuchten. Wenn Websitebesitzer eine bestimmte Suchmaschine oder einen anderen Bot bitten möchten, ihre Website nicht zu scannen, können sie dies in ihre robots.txt-Datei eingeben. Bots können dies jederzeit ignorieren, aber viele Crawling-Dienste respektieren die Anfrage.
Das hört sich vielleicht alles ziemlich technisch an, aber es ist eigentlich nichts weiter als eine kleine Textdatei, die sich im Stammordner Ihrer Website befindet, wie zum Beispiel „https://www.example.com/robots.txt“. Jeder kann diese Datei auf jeder Website sehen. Zum Beispiel, Hier ist die robots.txt-Datei der New York Timesdas derzeit sowohl ChatGPT als auch Bard blockiert.
Wenn Sie eine eigene Website betreiben, sollten Sie eine Möglichkeit haben, auf die Dateistruktur dieser Website zuzugreifen, entweder über das Webportal Ihres Hosting-Anbieters oder über FTP. Möglicherweise müssen Sie die Dokumentation Ihres Anbieters durchsehen, um herauszufinden, wie Sie auf diesen Ordner zugreifen können. In den meisten Fällen ist auf Ihrer Website bereits eine robots.txt-Datei erstellt, auch wenn diese leer ist. Wenn Sie jedoch eine Datei erstellen müssen, können Sie dies mit jedem Nur-Text-Editor tun. Google hat Eine Anleitung dazu finden Sie hier.
EFF wird diese Flags nicht verwenden, da wir glauben, dass Scraping ein leistungsstarkes Werkzeug für die Recherche und den Zugriff auf Informationen ist.
Was Sie in Ihre Robots.txt-Datei aufnehmen müssen, um ChatGPT und Google Bard zu blockieren
Wenn das alles geklärt ist, erfahren Sie hier, was Sie in die robots.txt-Datei Ihrer Website aufnehmen sollten, wenn Sie nicht möchten, dass ChatGPT und Google die Inhalte Ihrer Website zum Trainieren ihrer generativen KI-Modelle verwenden. Wenn Sie die gesamte Website abdecken möchten, fügen Sie diese Zeilen zu Ihrer robots.txt-Datei hinzu:
ChatGPT
User-agent: GPTBotDisallow: /
Google Bard
User-agent: Google-ExtendedDisallow: /
Sie können dies auch eingrenzen, um den Zugriff nur auf bestimmte Ordner auf Ihrer Site zu blockieren. Beispielsweise macht es Ihnen vielleicht nichts aus, wenn die meisten Daten auf Ihrer Website für Schulungen verwendet werden, Sie aber einen Blog haben, den Sie als Tagebuch verwenden. Sie können bestimmte Ordner deaktivieren. Wenn sich der Blog beispielsweise unter yoursite.com/blog befindet, würden Sie Folgendes verwenden:
ChatGPT
User-agent: GPTBotDisallow: /blog
Google Bard
User-agent: Google-ExtendedDisallow: /blog
Wie oben erwähnt, werden wir bei EFF diese Flags nicht verwenden, da wir glauben, dass Scraping ein leistungsstarkes Werkzeug für die Recherche und den Zugang zu Informationen ist; Wir möchten, dass die von uns bereitgestellten Informationen weit verbreitet werden und in den Ergebnissen und Antworten der LLMs enthalten sind. Natürlich haben einzelne Website-Besitzer unterschiedliche Ansichten über ihre Blogs, Portfolios oder was auch immer Sie Ihre Website sonst noch nutzen. Wir befürworten Möglichkeiten, mit denen Menschen ihre Vorlieben zum Ausdruck bringen können, und es würde viele beruhigen, wenn andere Unternehmen mit ähnlichen KI-Produkten wie Anthropic, Amazon und unzählige andere ankündigen würden, dass sie ähnliche Wünsche respektieren würden.