[NTD News, Pekinger Zeit, 26. Juni 2024]Zwei führende Start-ups für künstliche Intelligenz (KI), OpenAI und Anthropic, wurden beschuldigt, etablierte Netzwerkprotokolle „umgangen“ zu haben und dadurch die Urheberrechte der Verlage zu verletzen.

OpenAI, ein Start-up-Unternehmen, das für seinen weit verbreiteten Chatbot „chatgpt“ bekannt ist, hat Microsoft als Hauptinvestor, während Anthropic, das den berühmten Chatbot „Claude“ entwickelt hat, hauptsächlich von Amazon unterstützt wird.

Analysten von TollBit, einem Unternehmen, das Verlagen bei der Verhandlung von Urheberrechtsfragen mit Unternehmen für künstliche Intelligenz hilft, und eine andere mit der Angelegenheit vertraute Person sagten gegenüber Business Insider, dass OpenAI und Anthropic nach Möglichkeiten gesucht hätten, etablierte Netzwerkprotokolle zu umgehen, insbesondere den robots.txt-Standard zu umgehen. Diese Regel soll das automatisierte Scraping von Website-Inhalten durch Roboter verhindern.

Am vergangenen Freitag (21. Juni) schickte TollBit Briefe an einige namhafte Verlage, um sie an das Problem zu erinnern. Zuvor war bei vielen Unternehmen im Bereich der künstlichen Intelligenz ein ähnliches Verhalten festgestellt worden.

Forbes erregte letzte Woche öffentliche Aufmerksamkeit, nachdem es Perplexity, einem IA-Unternehmen, das eine „kostenlose Suchmaschine für künstliche Intelligenz“ anbietet, vorwarf, nicht autorisierte Artikel von mehreren Plattformen zu plagiieren und zu verbreiten. Das Wired-Magazin enthüllte in einem Bericht, dass Perplexity die robots.txt-Vereinbarung ignoriert und Inhalte von seiner Website und Conde Nast-Veröffentlichungen extrahiert hat. Die Tech-Website The Shortcut hat dem Unternehmen außerdem vorgeworfen, seine Inhalte gelöscht zu haben.

Obwohl OpenAI und Anthropic öffentlich erklärt haben, dass sie sich an die Vereinbarung halten werden, werden sie ihre jeweiligen Webcrawler GPTBot und ClaudeBot dazu verpflichten, die „Do not crawl“-Anweisungen zu respektieren, die in der robots.txt-Datei jeder Website festgelegt sind.

Siehe auch  Neuronales Netzwerk im Urlaub: Die Genauigkeit der ChatGPT-Antworten ist gesunken | Gadgets

Die Ergebnisse von TollBit deuten jedoch darauf hin, dass sie ihr Wort nicht gehalten haben. Derzeit haben weder OpenAI noch Anthropic zu der Angelegenheit Stellung genommen.

Seit seiner Einführung in den 1990er Jahren ist robots.txt ein einfacher Programmcodeausschnitt, der Webcrawlern sagt, wie sie die Seiten einer Website crawlen sollen. Es hat sich weithin durchgesetzt und ist zur ungeschriebenen Regel des Netzwerkmanagements geworden.

Während die generative KI rasant voranschreitet, liefern sich Startups und Technologieunternehmen einen Wettlauf um die Entwicklung modernster KI-Modelle. Doch dabei hat die steigende Nachfrage nach diesen Trainingsdaten die Wirksamkeit von robots.txt geschwächt.

Im vergangenen Jahr argumentierten mehrere Technologieunternehmen vor dem US-amerikanischen Urheberrechtsamt, dass Online-Inhalte zum Zweck der Schulung von Daten für künstliche Intelligenz vom Urheberrechtsschutz ausgenommen werden sollten. Das Copyright Office plant, seine Leitlinien zu künstlicher Intelligenz und Urheberrecht noch in diesem Jahr zu aktualisieren.

(Umfassende Berichterstattung von Reporter Yang Caihua/verantwortlicher Redakteur: Lin Qing)

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein