Jaap Arriens/NurPhoto über Getty Images
Der ChatGPT-Erfinder OpenAI hat einen neuen Webcrawler namens GPTBot veröffentlicht, zusammen mit Anweisungen, wie man ihn blockiert.
ChatGPT ist trotz jüngster Berichte über seine schwankende Intelligenz eines der leistungsfähigsten KI-Systeme, die jemals gebaut wurden. OpenAI, das Unternehmen hinter dem KI-Chatbot, trainiert weiterhin seine großen Sprachmodelle (LLMs) wie GPT-3.5 und GPT-4.
Auch: ChatGPT erhält diese Woche eine Reihe von Updates. Folgendes müssen Sie wissen:
Webcrawler, die von Suchmaschinen wie google und Bing zum Scannen von Websites und Indexieren von Inhalten verwendet werden, werden auch von KI-Unternehmen zum Trainieren von LLMs eingesetzt. Diese Modelle lernen aus dem Inhalt von Websites und allen anderen Daten, anhand derer ihre Entwickler sie trainieren. Der Einsatz eines Webcrawlers beschleunigt diesen Prozess, indem er es den LLMs ermöglicht, auf riesigen Datenmengen zu trainieren.
„Wenn Sie GPTBot den Zugriff auf Ihre Website erlauben, können KI-Modelle genauer werden und ihre allgemeinen Fähigkeiten und Sicherheit verbessern“, stellt OpenAI in seiner GPTBot-Dokumentation fest. Das Unternehmen gibt an, Webseiten herauszufiltern, die einen Paywall-Zugriff erfordern, personenbezogene Daten sammeln und Texte enthalten, die gegen die Richtlinien von OpenAI verstoßen
Entwickler haben die Möglichkeit, den GPTBot daran zu hindern, auf ihre Websites zuzugreifen und ihre Informationen zum Trainieren von KI-Systemen zu verwenden.
Um den Zugriff von GPTBot auf eine Website vollständig zu blockieren, kann der Websitebesitzer das GPTBot-Token zur robots.txt-Datei der Website hinzufügen und „Disallow: /“ wählen.
Mit OpenAI können Benutzer außerdem den Zugriff von GPTBot anpassen, indem sie es nur bestimmte Teile ihrer Website crawlen lassen. Um zu verhindern, dass GPTBot auf Teile einer Website zugreift, fügen Sie GPTBot zur robots.txt der Website und „Zulassen: /directory-1/“ und „Nicht zulassen: /directory-2/“ hinzu und passen Sie es nach Bedarf an.
Außerdem: Nvidia erweitert seinen „Superchip“ Grace-Hopper mit schnellerem Speicher für KI
OpenAI hatte zuvor nicht den Einsatz von Webcrawlern zum Trainieren von GPT-3.5, dem LLM hinter der kostenlosen Version von ChatGPT, oder GPT-4, seinem neuesten LLM, das ChatGPT Plus-Abonnenten zur Verfügung steht und Bing AI antreibt, angekündigt.
Obwohl unklar ist, ob GPTBot zum Trainieren der derzeit verfügbaren LLMs von OpenAI verwendet wurde, könnte es sich um den Webcrawler handeln, der GPT-5 trainiert, insbesondere nach Angaben des Unternehmens den Namen als Marke angemeldet im Juli. Obwohl OpenAI keinen Veröffentlichungstermin für GPT-5 bekannt gegeben hat, wird erwartet, dass das neue LLM leistungsfähiger und größer als GPT-4 ist, das derzeit das größte verfügbare LLM ist.
Auch: KI-Bots könnten bald Ihr neuer Kundendienstmitarbeiter werden
Seit der Einführung von ChatGPT wurde OpenAI mit mehreren Klagen konfrontiert, in denen behauptet wurde, dass das KI-Tool Daten von Benutzern stiehlt, darunter ein Fall einer Urheberrechtsverletzung, der das Unternehmen zum Ziel einer FTC-Untersuchung machte. Websites wie Stack Overflow, Reddit und Twitter haben angekündigt, KI-Unternehmen für den Zugriff auf ihre Daten Gebühren in Rechnung zu stellen.