Seit chatgpt erstmals der Öffentlichkeit zugänglich gemacht wurde, steckt OpenAI in Sachen Datenschutz in der Klemme. Das Unternehmen nutzte viele Daten aus dem öffentlichen Internet, um das große Sprachmodell zu trainieren, das ChatGPT und anderen KI-Produkten zugrunde liegt. Aber dazu gehörten offenbar auch urheberrechtlich geschützte Inhalte. Einige Entwickler haben OpenAI verklagt, und mehrere Regierungen haben Ermittlungen eingeleitet.
Auch für normale Benutzer fehlten grundlegende Datenschutzmaßnahmen, etwa die Möglichkeit, die KI nicht mit Ihren Daten zu trainieren. Es bedurfte des Drucks der Aufsichtsbehörden, damit OpenAI Datenschutzeinstellungen hinzufügt, mit denen Sie Ihre Inhalte entfernen können, damit sie nicht zum Trainieren von ChatGPT verwendet werden.
Für die Zukunft plant OpenAI die Bereitstellung eines neuen Tools namens Media Manager, mit dem Entwickler auf das Training von ChatGPT und anderen Modellen verzichten können, die OpenAI-Produkte unterstützen. Die Funktion wurde möglicherweise viel später eingeführt, als manche erwartet hatten, ist aber dennoch eine nützliche Verbesserung der Privatsphäre.
OpenAI veröffentlicht ein Blogbeitrag am Dienstag, in dem das neue Datenschutztool detailliert beschrieben und erläutert wird, wie es ChatGPT und andere KI-Produkte trainiert. Mit Media Manager können Ersteller ihre Inhalte identifizieren, um OpenAI mitzuteilen, dass sie diese von der Forschung und Schulung zum maschinellen Lernen ausschließen möchten.
Nun die schlechte Nachricht: Das Tool ist noch nicht verfügbar. Es wird bis 2025 fertig sein, und OpenAI plant, im Zuge der Weiterentwicklung weitere Optionen und Funktionen einzuführen. Das Unternehmen hofft außerdem, einen neuen Industriestandard zu schaffen.
OpenAI hat nicht im Detail erklärt, wie Media Manager funktionieren wird. Aber es hat große Ambitionen, da es alle Arten von Inhalten abdecken wird, nicht nur Text, auf den ChatGPT im Internet stoßen könnte:
Dies erfordert modernste maschinelle Lernforschung, um ein erstes Tool dieser Art zu entwickeln, das uns dabei hilft, urheberrechtlich geschützte Texte, Bilder, Audio- und Videoinhalte aus mehreren Quellen zu identifizieren und die Präferenzen der Ersteller widerzuspiegeln.
OpenAI wies außerdem darauf hin, dass es mit Erstellern, Inhaltseigentümern und Regulierungsbehörden zusammenarbeitet, um das Media Manager-Tool zu entwickeln.
Wie OpenAI ChatGPT und andere Modelle trainiert
In dem neuen Blog-Beitrag ging es nicht nur darum, das neue Media Manager-Tool anzukündigen, das ChatGPT und andere KI-Produkte möglicherweise daran hindern könnte, auf urheberrechtlich geschützte Inhalte zuzugreifen. Es versteht sich auch als Erklärung der guten Absichten des Unternehmens, KI-Produkte zu entwickeln, die den Benutzern zugute kommen. Und es klingt wie eine öffentliche Verteidigung gegen Behauptungen, dass ChatGPT und andere OpenAI-Produkte möglicherweise urheberrechtlich geschützte Inhalte ohne Genehmigung verwendet haben.
OpenAI erklärt tatsächlich, wie es seine Modelle trainiert und welche Schritte es unternimmt, um zu verhindern, dass nicht autorisierte Inhalte und Benutzerdaten in ChatGPT gelangen.
Das Unternehmen gibt außerdem an, keine der Daten aufzubewahren, die es zum Trainieren seiner Modelle verwendet. Die Modelle speichern Daten nicht wie eine Datenbank. Außerdem erhält jede neue Generation von Basismodellen einen neuen Datensatz für das Training.
Nach Abschluss des Trainingsprozesses behält das KI-Modell keinen Zugriff mehr auf die im Training analysierten Daten. ChatGPT ist wie eine Lehrerin, die aus vielen früheren Studien gelernt hat und Dinge erklären kann, weil sie die Zusammenhänge zwischen Konzepten gelernt hat, die Materialien aber nicht in ihrem Kopf speichert.
Darüber hinaus sagte OpenAI, dass ChatGPT und andere Modelle keine Inhalte wiedergeben sollten. Wenn das passiert, muss es ein Fehler auf Trainingsebene sein.
Wenn ein Modell in seltenen Fällen versehentlich ausdrucksstarke Inhalte wiederholt, liegt ein Fehler im maschinellen Lernprozess vor. Dieser Fehler tritt eher bei Inhalten auf, die häufig in Trainingsdatensätzen vorkommen, beispielsweise bei Inhalten, die auf vielen verschiedenen öffentlichen Websites erscheinen, weil sie häufig zitiert werden. Wir setzen während der gesamten Schulung und bei der Ausgabe, für unsere API oder ChatGPT, modernste Techniken ein, um Wiederholungen zu verhindern, und nehmen durch laufende Forschung und Entwicklung kontinuierlich Verbesserungen vor.
Das Unternehmen möchte außerdem ausreichend Vielfalt für das Training von ChatGPT und anderen KI-Modellen. Das bedeutet Inhalte in vielen Sprachen, die verschiedene Kulturen, Themen und Branchen abdecken.
„Im Gegensatz zu größeren Unternehmen im KI-Bereich verfügen wir nicht über einen großen Datenbestand, der über Jahrzehnte gesammelt wurde. Wir verlassen uns in erster Linie auf öffentlich verfügbare Informationen, um unseren Modellen beizubringen, wie sie hilfreich sein können“, fügt OpenAI hinzu.
Das Unternehmen verwendet Daten, die „hauptsächlich aus branchenüblichen Datensätzen für maschinelles Lernen und Web-Crawlings gesammelt werden, ähnlich wie bei Suchmaschinen“. Ausgenommen sind Quellen mit Paywalls, solche, die personenbezogene Daten sammeln, und Inhalte, die gegen die Richtlinien verstoßen.
OpenAI nutzt Datenpartnerschaften auch für Inhalte, die nicht öffentlich verfügbar sind, wie Archive und Metadaten:
Unsere Partner reichen von einer großen privaten Videobibliothek für Bilder und Videos über die Ausbildung von Sora bis hin zur isländischen Regierung, die sich für den Erhalt ihrer Muttersprachen einsetzt. Wir gehen keine bezahlten Partnerschaften für rein öffentlich zugängliche Informationen ein.
Die Erwähnung von Sora ist interessant, da OpenAI kürzlich in die Kritik geriet, weil es nicht vollständig erklären konnte, wie es die KI-Modelle trainierte, die für sein hochentwickeltes Text-zu-Video-Produkt verwendet wurden.
Schließlich spielt auch menschliches Feedback beim Training von ChatGPT eine Rolle.
Auch normale ChatGPT-Benutzer können ihre Daten schützen
OpenAI erinnert ChatGPT-Benutzer auch daran, dass sie das Training des Chatbots ablehnen können. Diese Datenschutzfunktionen sind bereits vorhanden und gehen dem Media Manager-Tool voraus, das sich derzeit in der Entwicklung befindet. „Daten vom ChatGPT-Team, ChatGPT Enterprise oder unserer API-Plattform“ werden nicht zum Trainieren von ChatGPT verwendet.
Ebenso können Benutzer von ChatGPT Free und Plus das Training der KI ablehnen.