Start ChatGPT OpenAI transkribiert über eine Million Stunden YouTube-Video, um ChatGPT zu trainieren

OpenAI transkribiert über eine Million Stunden YouTube-Video, um ChatGPT zu trainieren

Von

April 8, 2024

Bericht Die New York Times beschreibt detailliert, wie große Unternehmen im Bereich der künstlichen Intelligenz den Mangel an qualitativ hochwertigen Daten für das Training von KI behoben haben. Journalisten zufolge nutzten Marktführer aktiv „graue Schemata“, diskutierten die Möglichkeit von Urheberrechtsverletzungen und änderten Nutzungsvereinbarungen.

Berichten zufolge hat OpenAI ein eigenes Modell zur Dekodierung von Whisper-Audio entwickelt und über eine Million Stunden YouTube-Video verwendet, um das berühmteste große Sprachmodell, GPT-4, zu trainieren. Gleichzeitig schreiben Journalisten, das Unternehmen wisse, dass die Nutzungsvereinbarung von YouTube eine automatisierte Videoerkennung verbiete.

Vertreter von google, dem YouTube gehört, gemeldet The Verge sagte, das Unternehmen habe „unbestätigte Berichte“ über die Aktivitäten von OpenAI gesehen. Sie bestätigten außerdem, dass die Nutzungsbedingungen das unbefugte Crawlen oder Herunterladen von YouTube-Inhalten verbieten. Gleichzeitig schreiben Journalisten, dass Google nicht in die Sammlung von Daten aus dem Videohosting eingegriffen habe, da es die Datenentschlüsselung auch zum Trainieren seiner eigenen KI genutzt habe.

Meta*, dem die sozialen Netzwerke Instagram und Facebook gehören, war ebenfalls mit dem Problem eines Mangels an qualitativ hochwertigen Daten konfrontiert. Laut amerikanischen Journalisten diskutierte das Unternehmen bei internen Treffen die Möglichkeit, trotz möglicher Klagen urheberrechtlich geschützte Inhalte zu nutzen oder einen Verlag zu kaufen, um Zugang zu den Büchern zu erhalten.

KI-Modelle werden umso besser, je mehr Daten sie aufnehmen. Entwickler solcher Systeme suchen ständig nach neuen Quellen, die über die öffentlich zugänglichen Informationen im Internet hinausgehen, die bereits vollständig ausgeschöpft sind.

Eine mögliche Lösung für dieses Problem ist die Verwendung synthetischer Daten. In diesem Fall generieren KI-Modelle selbst künstliche Inhalte und nutzen diese für das Training. Doch zahlreichen Berichten und Klagen zufolge nutzen auch Unternehmen Nutzerinformationen trotz möglicher Risiken aktiv.

Siehe auch ChatGPT kann seine KI-Antworten jetzt laut vorlesen

*Meta Platforms Inc. in Russland als extremistisch anerkannt. Die Aktivitäten des Unternehmens und seiner sozialen Netzwerke Facebook und Instagram in der Russischen Föderation sind verboten

Weiter lesen:

Wissenschaftler verstehen, warum Voyager 1 fast fünf Monate lang Unsinn gesendet hat

Schauen Sie, was ein Unterwasserroboter am Grund des Baikalsees gefunden hat

Sonnenfinsternis: Warum sie gefährlich ist, wann und wie man sie in Russland beobachten kann und wie lange sie dauern wird

_{Auf dem Cover: Bild von freepikLizenzinformationen}

5/5 - (414 votes)

OpenAI transkribiert über eine Million Stunden YouTube-Video, um ChatGPT zu trainieren

Kommentieren Sie den Artikel Antwort abbrechen

So löschen Sie den Suchverlauf von Outlook.com

Eine der Spieldateien ist beschädigt, wenn Sie ein Spiel in Origin starten

Verwandte ArtikelMehr vom Autor

Das ChatGPT Hong Kong-Tutorial zeigt Ihnen Schritt für Schritt, wie Sie sich kostenlos registrieren, wie Sie es verwenden und wie Sie das Abonnement bezahlen

ChatGPT erklärte, was mit dem Hamster Kombat-Whitepaper nicht stimmt

Sparen Sie 80 % auf dieses AI Super Skills Bundle feat. ChatGPT, Leonardo, Midjourney und mehr

Kommentieren Sie den Artikel Antwort abbrechen

So löschen Sie den Suchverlauf von Outlook.com

Eine der Spieldateien ist beschädigt, wenn Sie ein Spiel in Origin starten

Verwandte Artikel Mehr vom Autor