Angesichts wachsender Beschwerden über den Missbrauch urheberrechtlich geschützter Inhalte versuchen die GPT-Modelle von OpenAI laut einem aktuellen Bericht nun zu „verheimlichen“, dass sie illegal auf urheberrechtlich geschützte Werke trainiert wurden. Nach der Eingabe der Eingabeaufforderungen ändert chatgpt beispielsweise seine Antworten (sehr) geringfügig, um die Zitate eines Autors nicht genau zu wiederholen. Es scheint offensichtlich, dass diese Lösung das Problem nur vermeidet und hauptsächlich dazu dient, eine strafrechtliche Verfolgung von OpenAI zu vermeiden.

Um korrekte Antworten generieren zu können, werden große Sprachmodelle (LLM) im Wesentlichen auf vorhandenen, im Internet verfügbaren Inhalten trainiert. Zu diesen Auszügen gehören lizenzfreie Informationen, aber auch urheberrechtlich geschützte Werke, an denen Autoren und Künstler Stunden, Monate oder sogar Jahre gearbeitet haben. Nach aufeinanderfolgenden Beschwerden und Behauptungen, darunter die der berühmten Komikerin und Autorin Sarah Silverman, stehen Unternehmen im Bereich der künstlichen Intelligenz (KI) nun unter verstärkter Beobachtung, weil sie Inhalte ohne Lizenzvereinbarung oder andere Genehmigungen nutzen.

Um die Situation zu beruhigen, haben Unternehmen wie OpenAI und Meta nach und nach aufgehört, die Quellen der Daten offenzulegen, auf denen ihre KI-Modelle basieren. Allerdings wäre OpenAI mit einer Lösung, die offenbar eher darauf abzielt, sie gerichtlich zu schützen, als die Rechte der Autoren wirklich zu respektieren, noch etwas weiter gegangen. Anstatt die Verwendung urheberrechtlich geschützter Inhalte vollständig einzustellen, würde ChatGPT die Eingabeaufforderungen einfach so modifizieren, dass die Quellenzitate nicht exakt kopiert werden. Die Studie, die zu dieser Beobachtung führte – verfügbar als Vorabveröffentlichung am arXiv — wurde von Forschern durchgeführt, die der KI-Forschungsabteilung von ByteDance (der Muttergesellschaft von Tik Tok) angeschlossen sind.

:: DAS T-SHIRT, DAS DIE WISSENSCHAFT UNTERSTÜTZT! ::

Inhalte, die 90 % der geschützten Werke entsprechen

Um KI-Modelle zu entwickeln, die unseren Erwartungen entsprechen, verwenden Ingenieure eine Technik namens „Alignment“ mit dem Ziel, die Genauigkeit und Zuverlässigkeit ständig zu verbessern. Diese Technik würde die mit Missbrauch verbundenen Risiken begrenzen. Eine große Herausforderung bleibt jedoch die Einhaltung gesellschaftlicher Normen, Werte und Vorschriften. Die Missachtung der Urheberrechte ist ein eklatantes Beispiel für diese Nichteinhaltung.

Siehe auch  So verwenden Sie ChatGPT zum Schreiben eines Drehbuchs

Die Studie von ByteDance schlägt vor, dieses Problem anzugehen, indem wichtige Punkte hervorgehoben werden, die bei der Bewertung der Zuverlässigkeit von LLMs zu berücksichtigen sind. Diese Punkte betreffen angemessene Zuverlässigkeit, Sicherheit, Fairness, Missbrauchsresistenz, Erklärbarkeit und Argumentation, Einhaltung gesellschaftlicher Normen und Robustheit. Anschließend bewerteten die Forscher, wie gut die am häufigsten verwendeten Tools diese Punkte erfüllen, darunter alle Versionen von ChatGPT (GPT-Modelle), OPT-1.3B von Meta, FLAN-T5 von google, ChatGLM, entwickelt von der Tsinghua University aus China, und DialoGPT, entwickelt von Microsoft. Diese Tools wurden an Eingabeaufforderungen für das erste Buch der Harry-Potter-Buchreihe von J.K. Rowling getestet.

Sie möchten Anzeigen von der Website entfernen und unterstützen uns weiterhin ?

Es ist ganz einfach, abonnieren Sie einfach!

Im Augenblick, 20% Rabatt zum Jahresabonnement!

Der Ansatz von OpenAI zum Thema Urheberrecht besteht darin, den Nachweis zu vermeiden, dass sein Chatbot auf urheberrechtlich geschützte Inhalte trainiert wurde. Zu diesem Zweck verschlüsselt es seine Antworten auf Eingabeaufforderungen, wenn sie sich auf den besagten Inhalt beziehen. “ Wir glauben, dass die ChatGPT-Entwickler einen Mechanismus implementiert haben, um zu erkennen, ob die Eingabeaufforderungen darauf abzielen, urheberrechtlich geschützte Inhalte zu extrahieren oder die Ähnlichkeit zwischen generierten Ausgaben und urheberrechtlich geschützten Inhalten zu überprüfen “, schreiben die Forscher von ByteDance in ihrem Dokument.

Trotz dieser Bemühungen war immer noch offensichtlich, dass ChatGPT und andere Chatbots immer noch geschützte Inhalte generierten. Alle antworteten auf Aufforderungen, die auf dem Bestseller-Roman basierten, und antworteten mit Antworten, die genau oder nahezu mit den Schriften des Autors übereinstimmten. Einige Antworten unterschieden sich nur durch ein oder zwei Wörter, was einer Ähnlichkeit von 90 % entspricht. “ Alle LLMs geben Text aus, der eher wie urheberrechtlich geschützter Inhalt als wie zufällig generierter Text aussieht “, gibt das Dokument an. Darüber hinaus konnte durch keine Angleichung der Ergebnisse die Generierung dieser nicht lizenzfreien Inhalte vermieden werden.

Siehe auch  Bing iOS-App mit verbessertem ChatGPT und Widgets aktualisiert

Dennoch sind die Autoren der Untersuchung der Ansicht, dass die Eingabe von Eingabeaufforderungen, die KI-Modelle dazu ermutigen, geschützte Inhalte anzuzeigen, einen Missbrauch dieser Tools darstellt. Ihrer Meinung nach könnten die Bemühungen von OpenAI dennoch zur Durchsetzung von Urheberrechten beitragen, indem sie solche missbräuchlichen Aufforderungen erkennen.

Quelle : arXiv

Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein