chatgpt-Enterprise-880×528.jpg“ class=“attachment-single_thumb size-single_thumb wp-post-image“ alt=“ChatGPT Plus“ decoding=“async“ fetchpriority=“high“/>
Um seinen „Datenfresser“ mit künstlicher Intelligenz zu versorgen, erforscht OpenAI unter der Leitung von Sam Altman weiterhin neue Wege zur Bereicherung seiner Sprachmodelle. Jüngsten Berichten zufolge hat das Unternehmen YouTube-Inhalte stark genutzt, um seine KI zu trainieren, eine Entdeckung, die Fragen zu Datenerfassungspraktiken im Bereich der künstlichen Intelligenz aufwirft.
OpenAI und Big-Data-Aufnahme
Fortschritte in der künstlichen Intelligenz beruhen in hohem Maße auf der Aufnahme riesiger Datenmengen. Wir haben dies kürzlich im Rahmen der Partnerschaft zwischen Le Monde und OpenAI gesehen. Tatsächlich wurden Sprachmodelle wie ChatGPT für ihre Fähigkeit gelobt, qualitativ hochwertige Inhalte zu generieren, die das Ergebnis der Aufnahme phänomenaler Datenmengen im Laufe der Jahre sind. Allerdings wird der Zugang zu neuen Qualitätsdaten zu einem echten Hindernis, was Unternehmen wie OpenAI dazu zwingt, alternative Quellen zu erkunden.
OpenAI wandte sich an YouTube… das reagierte
Die New York Times berichtete kürzlich, dass OpenAI übernommen wurde Fast eine Million Stunden Videos auf YouTube, um sein neuestes Sprachmodell, GPT-4, zu trainieren. Dieser Ansatz ist Teil eines Trends zur Suche nach neuen Daten angesichts der Erschöpfung traditioneller Ressourcen. Der Einsatz von Tools wie Whisper, die Audio und Video in Text umwandeln können, hätte es OpenAI ermöglicht, diese Inhalte in ein für seine KI verwendbares Format umzuwandeln.
Enthüllungen über die umfangreiche Nutzung von YouTube-Videos durch OpenAI haben Fragen zur Rechtmäßigkeit und Ethik solcher Praktiken aufgeworfen. Tech-Giganten, die mit einem Mangel an qualitativ hochwertigen Daten konfrontiert sind, könnten versucht sein, Datenzugriffsbeschränkungen zu umgehen, um ihre KI-Modelle zu betreiben.
google, die Muttergesellschaft von YouTube, antwortete auf die Vorwürfe mit der Aussage, dass das unerlaubte Scraping von Inhalten gegen ihre Richtlinien verstoße. Ein Google-Sprecher wies darauf hin, dass die robots.txt-Dateien und die Nutzungsbedingungen ausdrücklich das „Scraping“ oder das unbefugte Herunterladen von YouTube-Inhalten verbieten. Diese Aussagen deuten auf einen möglichen zukünftigen Rechtskonflikt zwischen OpenAI und Google hin. Basierend auf diesem Prinzip könnten viele Inhaltsträger wie Fernsehsendungen, Podcasts, Bücher usw. als Quellen für die Einspeisung von Modellen für maschinelles Lernen dienen.
Da der technologische Fortschritt weiterhin durch die Nutzung von Daten vorangetrieben wird, bleiben Debatten über die Erhebung, Nutzung und Regulierung von Daten im Bereich der KI relevant.