OpenAI sieht sich mit mehreren Klagen wegen urheberrechtlich geschütztem Material konfrontiert, das zum Trainieren von chatgpt verwendet wurde.
CFOTO/Getty Images
  • Die Herausgeber wollen von OpenAI eine Vergütung für die Nutzung ihrer Werke zum Trainieren von KI-Modellen.
  • Das Center for Investigative Reporting hat diese Woche Klage gegen das Unternehmen eingereicht.
  • Auch die New York Times und andere Medien haben ähnliche Klagen gegen OpenAI eingereicht.

OpenAI verwendet alle öffentlich verfügbaren Daten, um ChatGPT zu trainieren, darunter auch Bücher und Artikel aus dem Internet. Nun wollen die Eigentümer dieser Daten für ihre Arbeit bezahlt werden.

Trainingsdaten sind ein wesentlicher Bestandteil der Erstellung von KI-Modellen, die die Technologiewelt erobern. Führende Technologieunternehmen wie google, Meta, OpenAI, Anthropic und Microsoft sind alle auf der Suche nach neuen Datenquellen. Meta erwog zeitweise sogar den Kauf von Simon & Schuster, einem der größten Verlagshäuser der Welt.

Ein Teil des Problems ist, dass die Verlage diese Unternehmen zunehmend beschuldigen, urheberrechtlich geschützte Daten aufzusaugen. Sie möchten für ihre Arbeit bezahlt werden. Meta und OpenAI haben in Kommentaren gegenüber dem US-amerikanischen Copyright Office argumentiert, dass urheberrechtlich geschütztes Material durch die Veröffentlichung im Internet „öffentlich verfügbar“ und damit unter das Fair Use-Gesetz falle.

Dieses Argument müssen sie allerdings dennoch vor Gericht vorbringen, da das Unternehmen wegen des urheberrechtlich geschützten Materials mit Klagen mehrerer Gruppen konfrontiert ist.

Das Center for Investigative Reporting, eine gemeinnützige Nachrichtenorganisation, die manchmal unter dem Akronym CIR bekannt ist und Anfang des Jahres mit Mother Jones und Reveal fusionierte, verklagte letzte Woche OpenAI und Microsoft vor einem Bundesgericht. Das Klage wirft OpenAI basiert auf der Nutzung urheberrechtlich geschützter Werke von Urhebern auf der ganzen Welt, einschließlich CIR.

Siehe auch  OpenAI sagt, dass die New York Times ChatGPT im Urheberrechtsstreit „manipuliert“ habe

Die Anwälte des CIR warfen OpenAI und Microsoft vor, urheberrechtlich geschütztes Material von Mother Jones zum Trainieren ihrer GPT- und Copilot-KI-Modelle zu verwenden.

„OpenAI und Microsoft begannen, unsere Geschichten aufzusaugen, um ihr Produkt leistungsfähiger zu machen, aber sie fragten nie um Erlaubnis oder boten eine Entschädigung an, anders als andere Organisationen, die unser Material lizenzieren“, sagte Monika Bauerlein, CEO des Center for Investigative Reporting. sagte in einer Ankündigung zur Klage. „Dieses Trittbrettfahrerverhalten ist nicht nur unfair, es ist eine Verletzung des Urheberrechts.“

In der Klageschrift heißt es, dass in einer veröffentlichten Liste der Top-Webdomänen im WebText-Trainingsset des Unternehmens „16.793 verschiedene URLs der Webdomäne von Mother Jones“ erschienen seien.

In einer weiteren Sammelklage der Author’s Guild behaupteten zwei Autoren, dass das Unternehmen Informationen aus ihren Büchern verwendet habe, um ChatGPT zu trainieren. Auch die New York Times reichte im Dezember 2023 eine ähnliche Klage gegen das Unternehmen ein.

Im Mai enthüllten Gerichtsdokumente im Rechtsstreit der Author’s Guild, dass OpenAI zwei riesige Datensätze gelöscht hatte, die zum Training von GPT-3 verwendet wurden. Die Anwälte der Guild sagten, die beiden Datensätze enthielten wahrscheinlich „mehr als 100.000 veröffentlichte Bücher“.

Die beiden für die Zusammenstellung der Daten verantwortlichen Mitarbeiter arbeiten nicht mehr für OpenAI, heißt es in Gerichtsunterlagen.

OpenAI hat begonnen, Lizenzvereinbarungen mit Nachrichtenorganisationen zu unterzeichnen, um ihre Arbeit fair nutzen zu können. Das Unternehmen hat solche Vereinbarungen unterzeichnet mit Die Associated PressHerausgeber von The Wall Street Journal und New York Post, The Atlantic, Prisa Media, der Zeitung Le Monde, der Financial Times und Axel Springer, der Muttergesellschaft von Business Insider.

Siehe auch  Der Top-VC, der in OpenAI investiert hat, singt gegen den Vater von ChatGPT und glaubt, dass KI die Welt retten wird

Doch der Umfang der Inhalte, die erforderlich sind, damit diese Bots kontinuierlich lernen, wird weit mehr als eine Handvoll Lizenzvereinbarungen erfordern.

Eine Lösung sind synthetische Daten, die nicht aus der realen Welt gesammelt, sondern künstlich erzeugt werden und problemlos durch Algorithmen des maschinellen Lernens generiert werden können.

OpenAI hat synthetische Daten als Option zum Trainieren seiner Modelle in Betracht gezogen, CEO Sam Altman äußerte jedoch Bedenken hinsichtlich der Produktion qualitativ hochwertiger Daten.

„Solange Sie den Ereignishorizont für synthetische Daten überschreiten können, wo das Modell intelligent genug ist, um gute synthetische Daten zu erstellen, wird alles gut sein.“ Altman sagte auf einer Technologiekonferenz im Mai 2023. Das Unternehmen hat auch einen Prozess untersucht, bei dem KI-Modelle zusammenarbeiten – ein KI-System produziert Daten, während ein anderes sie beurteilt.

OpenAI antwortete nicht sofort auf die Bitte von Business Insider um einen Kommentar.

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein