Meredith Kopit Levien, CEO der New York Times Michael M. Santiago – Getty Images
Was wäre, wenn generative KI illegal wäre? Die Technologie, die im November 2022 mit der Veröffentlichung von chatgpt explodierte, war ein Segen für den Aktienmarkt und wurde als revolutionärer Durchbruch gefeiert, befindet sich jedoch seitdem in einem unruhigen Waffenstillstand mit Medienorganisationen. Jetzt, fast ein Jahr später, ist die größte Zeitungsallianz mit wichtigen Mitgliedern darunter Die New York Times Und Das Wall Street Journalhat sich geäußert, und es ist vernichtend.
Von Hollywood-Schauspielern bis hin zu berühmten Autoren kämpften alle darum, ihre Arbeit vor dem ungezügelten Einsatz künstlicher Intelligenz zu schützen, und Nachrichtenverleger argumentierten, dass Entwickler wie ChatGPTs Muttergesellschaft OpenAI und Google illegal gehandelt hätten Nutzung ihrer urheberrechtlich geschützten Arbeit zum Trainieren von Chatbots.
Die News Media Alliance, eine Handelsgruppe, die über 2.200 Medienorganisationen vertritt, veröffentlichte a 77-seitiges Whitepaper am Dienstag mit der Begründung, dass einige der beliebtesten KI-Chatbots, wie ChatGPT und Googles Bard, sich stark auf Nachrichtenartikel verlassen, um ihre Technologie zu trainieren. Und aufgrund der Art und Weise, wie diese Chatbots trainiert werden, können die von ihnen generierten Antworten nahezu identisch mit den urheberrechtlich geschützten Inhalten sein.
„GAI [generative AI]„Obwohl sie für Verbraucher, Unternehmen und die Gesellschaft insgesamt vielversprechend sind, handelt es sich um kommerzielle Produkte, die auf dem Rücken kreativer Mitwirkender entwickelt und betrieben werden“, heißt es in dem Bericht.
Der Krieg der Medien gegen die KI
Large-Language-Modelle (LLMs) sind eine Art KI, die geschriebenen Text versteht und generiert. Sie werden trainiert, indem sie riesige Datenmengen analysieren und Schreibmuster nachahmen und gleichzeitig scheinbar enzyklopädisches Wissen vermitteln. Da viele Entwickler jedoch nicht öffentlich offenlegen, welche Inhalte in ihre Modelle eingespeist werden, um sie zu trainieren, ist es unmöglich, mit Sicherheit zu wissen, welche Daten zitiert oder repliziert werden. Die Allianz glaubt, es zu wissen.
Durch die Analyse einer Stichprobe von Datensätzen, von denen angenommen wird, dass sie zur Ausbildung von LLMs verwendet werden, stellte die News Media Alliance fest, dass Inhalte aus Nachrichten, Zeitschriften und digitalen Medienpublikationen fünf- bis 100-mal häufiger verwendet wurden als offene Webdaten wie diese von Gemeinsames Kriechen. Der Bericht argumentierte, dass dies ein Verstoß sei „Fair Use“-Gesetze, die es ermöglichen, urheberrechtlich geschütztes Material für begrenzte Zwecke ohne Lizenz zu reproduzieren oder zu kopieren.
„Es fungiert wirklich als Ersatz für unsere eigentliche Arbeit“, sagte Danielle Coffey, Präsidentin und CEO der News Media Alliance New York Times. „Sie können sehen, dass unsere Artikel nur wörtlich übernommen und wiedergegeben wurden.“
Das Whitepaper argumentiert, dass die „anthropomorphe Behauptung“ der KI-Entwickler, dass sie zum Trainieren ihrer Modelle nur veröffentlichtes schriftliches Material verwenden würden, „technisch ungenau und nebensächlich“ sei.
Es sei ungenau, weil Modelle „den Ausdruck von Tatsachen beibehalten, die in Werken in ihren kopierten Schulungsmaterialien enthalten sind (und die durch das Urheberrecht geschützt sind), ohne jemals die zugrunde liegenden Konzepte zu übernehmen“, heißt es in dem Bericht. „Das ist nebensächlich, denn Materialien, die zum ‚Lernen‘ verwendet werden, unterliegen dem Urheberrecht.“
Coffey fügte hinzu, dass die Nachrichtengruppe „einen sehr guten Fall vor Gericht“ gegen Entwickler haben würde.
Damoklesschwert für die Kreativwirtschaft
Der Aufstieg der generativen KI war das Damoklesschwert, das über den Medien schwebte. Wenn ein Chatbot in der Lage ist, große Mengen an Informationen zu destillieren und sie in lesbarem, präzisem Text zusammenzufassen, könnte er Reporter theoretisch von ihrer Arbeit befreien.
Und die Allianz sagt, dass diese mögliche Zukunft nicht nur der Journalismusbranche, sondern auch der Gesellschaft schaden würde: „Wenn das Internet mit den Produkten von GAI überschwemmt wird, dann wird GAI selbst nichts mehr haben, woran sie trainieren kann.“
Es sind nicht nur die Medien, die sich darauf vorbereiten. Autoren wie John Grisham, Game of Thrones Der Erfinder George RR Martin und 17 weitere reichten im September eine Sammelklage gegen OpenAI ein, weil sie ChatGPT in ihren urheberrechtlich geschützten Büchern trainiert hatten. Und das Fehlen von Schutzmaßnahmen für den Einsatz der sich noch in der Entwicklung befindlichen Technologie stand im Mittelpunkt des Streiks der beiden Hollywood-Schauspieler und -Autoren, da sie befürchteten, dass Studios die Technologie nutzen würden, um ihre Konterfeis ohne ihre Erlaubnis zu reproduzieren oder sie ganz zu ersetzen
„Diese Beweise zeigen, dass die Früchte menschlicher Kreativität der wesentliche Treibstoff für die Aufrechterhaltung der GAI-Revolution sind“, heißt es in dem Bericht.