Das Wichtigste, damit ein KI-Modell wie vorgesehen funktioniert, ist eine riesige Menge an Trainingsdaten. OpenAI, das angeblich mit einem Mangel an Trainingsdaten konfrontiert ist, hat Berichten zufolge sein Whisper-Audiotranskriptionsmodell entwickelt, um dieses Problem zu beheben. In einem Bericht wurde nun behauptet, dass dieses Modell über eine Million Stunden YouTube-Videos transkribiert hat, um GPT-4 zu trainieren, das fortschrittlichste große Sprachmodell von OpenAI, das nicht nur die Produkte von OpenAI, sondern auch die von Microsoft angebotenen Dienste unterstützt. Laut einem Bericht der New York Times war sich OpenAI potenzieller rechtlicher Bedenken bewusst, war jedoch der Ansicht, dass ihre Handlungen eine faire Nutzung darstellten. Der Bericht behauptet auch, dass OpenAI-Präsident Greg Brockman direkt am Videosammlungsprozess beteiligt war. Die Entwicklung erfolgt wenige Tage, nachdem YouTube-CEO Neal Mohan in einem Interview gesagt hat, dass das Scrapen von YouTube-Videos zum Trainieren von KI-Modellen einen Verstoß gegen die Regeln darstellen würde. Was OpenAI und YouTube zu sagen haben OpenAI-Sprecherin Lindsay Held sagte gegenüber The Verge, dass das Unternehmen „zahlreiche Quellen, darunter öffentlich verfügbare Daten und Partnerschaften für nicht öffentliche Daten“, nutzt, um seine globale Forschungswettbewerbsfähigkeit aufrechtzuerhalten, und dass das Unternehmen „einzigartige“ Datensätze für jedes seiner Modelle kuratiert, um „zu helfen“. ihr Verständnis der Welt“ Unterdessen sagte google, dem YouTube gehört, dass es „unbestätigte Berichte“ über die Aktivitäten von OpenAI gesehen habe. „Sowohl unsere robots.txt-Dateien als auch unsere Nutzungsbedingungen verbieten das unbefugte Scrapen oder Herunterladen von YouTube-Inhalten“, wurde Google-Sprecher Matt Bryant zitiert. Bryant sagte, Google ergreife „technische und rechtliche Maßnahmen“, um eine solche unbefugte Nutzung zu verhindern, „wenn wir eine klare rechtliche oder technische Grundlage dafür haben“. In dem Bericht wurde auch darauf hingewiesen, dass Google auch Transkripte von YouTube gesammelt habe und der Sprecher sagte, dass das Unternehmen seine Modelle „an einigen YouTube-Inhalten gemäß unseren Vereinbarungen mit YouTube-Erstellern“ geschult habe.
Siehe auch  ChatGPTs Total Recall: Der Sprung der KI von 404-Fehlern zu sentimentalen Erinnerungen
Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein