Als Künstler, Schriftsteller und andere Schöpfer plädieren für eine KI-Regulierung um ihre Arbeit und ihren Lebensunterhalt zu schützen – und die Chatbot-Hersteller OpenAI und Anthropic sehen sich mit Urheberrechtsklagen von Unternehmen wie … konfrontiert Autoren, Die New York TimesUnd Universal Music Group — Studie am Mittwoch veröffentlicht stellte fest, dass einige der heute verfügbaren Top-KI-Modelle „urheberrechtlich geschützte Inhalte in alarmierend hoher Rate“ erzeugen.
Patronus AI, ein von ehemaligen Meta-Forschern mitbegründetes Startup, das sich auf die Bewertung und Prüfung von LLMs, die beliebte Chatbots antreiben, auf Fehler konzentriert, veröffentlichte am Mittwoch sein CopyrightCatcher-Tool, das es „unsere Lösung zur Erkennung potenzieller Urheberrechtsverletzungen in LLMs“ nannte.
Das Unternehmen hat vier große KI-Modelle auf Urheberrecht geprüft: GPT-4 von OpenAI, Claude 2.1 von Anthropic, Mixtral von Mistral und Llama 2 von Meta. Von den vier Modellen sind zwei Open-Source- und zwei Closed-Source-Modelle, GPT- 4, die fortschrittlichste Version von chatgpt, generierte mit 44 % die meisten urheberrechtlich geschützten Inhalte. Mixtral generierte urheberrechtlich geschützte Inhalte auf 22 % der Eingabeaufforderungen, Llama 2 generierte urheberrechtlich geschützte Inhalte auf 10 % der Eingabeaufforderungen und Claude 2.1 generierte urheberrechtlich geschützte Inhalte auf 8 % der Eingabeaufforderungen, so die Studie.
Patronus AI testete die Modelle anhand von Büchern, die unter Urheberrechtsschutz stehen, darunter Exfreundin von Gillian Flynn und Ein Spiel der Throne von George RR Martin, stellte jedoch fest, dass in den USA einige Generationen von Fair-Use-Gesetzen abgedeckt werden können. Forscher baten den Chatbot um die erste Passage oder die Vervollständigung des Texts der Bücher.
Mehr lesen: Die größten KI-Chatbot-Fehler (bisher)
Die Testergebnisse zeigten, dass GPT-4 in 60 % der Fälle Buchtexte fertigstellte und in 26 % der Fälle die erste Passage generierte. Mittlerweile hat Claude in 16 % der Fälle Buchtexte fertig gestellt, in 0 % der Fälle jedoch den ersten Text verfasst. Mixtral generierte in 38 % der Fälle die erste Passage von Büchern, wenn es dazu aufgefordert wurde, und schloss Passagen in 6 % der Fälle ab. Lama generierte in 10 % der Fälle erste Passagen und fertige Texte.
„Überraschend war vielleicht, dass wir herausgefunden haben, dass GPT-4 von OpenAI, das wohl leistungsstärkste Modell, das von vielen Unternehmen und auch einzelnen Entwicklern verwendet wird, bei 44 % der von uns erstellten Eingabeaufforderungen urheberrechtlich geschützte Inhalte produzierte“, Rebecca Qian , Mitbegründer und Chief Technology Officer bei Patronus AI, sagte CNBC.
OpenAI, Mistral, Meta und Anthropic reagierten nicht sofort auf eine Bitte um Stellungnahme.
Da LLMs auf Daten, einschließlich urheberrechtlich geschützter Werke, trainiert werden, ist es laut Patronus AI für einen LLM „ziemlich einfach“, exakte Reproduktionen der Arbeit zu erstellen, und es sei wichtig, diese Fehler zu erkennen, um rechtliche Schritte und Risiken für den Ruf eines Unternehmens zu vermeiden.