Bericht Die New York Times beschreibt detailliert, wie große Unternehmen im Bereich der künstlichen Intelligenz den Mangel an qualitativ hochwertigen Daten für das Training von KI behoben haben. Journalisten zufolge nutzten Marktführer aktiv „graue Schemata“, diskutierten die Möglichkeit von Urheberrechtsverletzungen und änderten Nutzungsvereinbarungen.
Berichten zufolge hat OpenAI ein eigenes Modell zur Dekodierung von Whisper-Audio entwickelt und über eine Million Stunden YouTube-Video verwendet, um das berühmteste große Sprachmodell, GPT-4, zu trainieren. Gleichzeitig schreiben Journalisten, das Unternehmen wisse, dass die Nutzungsvereinbarung von YouTube eine automatisierte Videoerkennung verbiete.
Vertreter von google, dem YouTube gehört, gemeldet The Verge sagte, das Unternehmen habe „unbestätigte Berichte“ über die Aktivitäten von OpenAI gesehen. Sie bestätigten außerdem, dass die Nutzungsbedingungen das unbefugte Crawlen oder Herunterladen von YouTube-Inhalten verbieten. Gleichzeitig schreiben Journalisten, dass Google nicht in die Sammlung von Daten aus dem Videohosting eingegriffen habe, da es die Datenentschlüsselung auch zum Trainieren seiner eigenen KI genutzt habe.
Meta*, dem die sozialen Netzwerke Instagram und Facebook gehören, war ebenfalls mit dem Problem eines Mangels an qualitativ hochwertigen Daten konfrontiert. Laut amerikanischen Journalisten diskutierte das Unternehmen bei internen Treffen die Möglichkeit, trotz möglicher Klagen urheberrechtlich geschützte Inhalte zu nutzen oder einen Verlag zu kaufen, um Zugang zu den Büchern zu erhalten.
KI-Modelle werden umso besser, je mehr Daten sie aufnehmen. Entwickler solcher Systeme suchen ständig nach neuen Quellen, die über die öffentlich zugänglichen Informationen im Internet hinausgehen, die bereits vollständig ausgeschöpft sind.
Eine mögliche Lösung für dieses Problem ist die Verwendung synthetischer Daten. In diesem Fall generieren KI-Modelle selbst künstliche Inhalte und nutzen diese für das Training. Doch zahlreichen Berichten und Klagen zufolge nutzen auch Unternehmen Nutzerinformationen trotz möglicher Risiken aktiv.
*Meta Platforms Inc. in Russland als extremistisch anerkannt. Die Aktivitäten des Unternehmens und seiner sozialen Netzwerke Facebook und Instagram in der Russischen Föderation sind verboten
Weiter lesen:
Wissenschaftler verstehen, warum Voyager 1 fast fünf Monate lang Unsinn gesendet hat
Schauen Sie, was ein Unterwasserroboter am Grund des Baikalsees gefunden hat
Sonnenfinsternis: Warum sie gefährlich ist, wann und wie man sie in Russland beobachten kann und wie lange sie dauern wird
Auf dem Cover: Bild von freepikLizenzinformationen