Technologie-Giganten nutzen heimlich YouTube-Daten für KI-Training

Technologieunternehmen nutzen umstrittene Methoden, um KI-Modelle mit Daten aus YouTube-Videos zu trainieren, oft ohne Wissen der Urheber. Proof News deckte auf, dass Untertitel von 173.536 YouTube-Videos von Unternehmen wie Anthropic, Nvidia, Apple und Salesforce verwendet wurden. Betroffene Videokünstler fordern Entschädigung und Regulierung, da Inhalte ohne Erlaubnis genutzt wurden. Das Datenset „YouTube Subtitles“ ist Teil einer größeren Sammlung namens „The Pile“, die öffentlich zugänglich ist, jedoch kontrovers diskutiert wird. Unternehmen wie Google, OpenAI und andere äußern sich selten klar zur Nutzung von YouTube-Daten für ihre KI-Modelle.

Technologieunternehmen greifen zu umstrittenen Methoden, um ihre datenhungrigen Künstliche-Intelligenz-Modelle zu füttern. Dazu gehören das Sammeln und Auswerten von Inhalten sowie Posts, oft ohne Wissen der Urheber. Eine Untersuchung von Proof News hat aufgedeckt, dass einige der wohlhabendsten KI-Unternehmen der Welt Material aus tausenden YouTube-Videos nutzten, um ihre Modelle zu trainieren, obwohl dies gegen die Regeln der Plattform verstößt.

Die Datenquelle

Unsere Recherche ergab, dass Untertitel aus 173.536 YouTube-Videos, die von über 48.000 Kanälen stammen, von Unternehmen wie Anthropic, Nvidia, Apple und Salesforce verwendet wurden. Das Datenset, YouTube Subtitles genannt, enthält Transkripte von Kanälen wie Khan Academy, MIT und Harvard. Auch Videos von großen Medienhäusern wie dem Wall Street Journal, NPR und der BBC fanden Verwendung, ebenso wie Unterhaltungsformate wie The Late Show With Stephen Colbert, Last Week Tonight With John Oliver und Jimmy Kimmel Live.

Proof News entdeckte zudem Material von YouTube-Größen, darunter Kanäle mit Millionen Abonnenten. Einige Inhalte, die zur Schulung der KI genutzt wurden, verbreiteten Verschwörungstheorien, wie die „Flache-Erde-Theorie“.

Reaktionen der Betroffenen

David Pakman, Betreiber eines politisch linksgerichteten Kanals mit über zwei Millionen Abonnenten, zeigte sich bestürzt: „Niemand hat mich um Erlaubnis gefragt.“ Pakman ist der Ansicht, dass er für die Nutzung seiner Daten entschädigt werden sollte, insbesondere wenn Medienunternehmen Entschädigungen für die Nutzung ihrer Inhalte erhalten. „Das ist mein Lebensunterhalt, und ich investiere Zeit, Ressourcen und Geld in die Erstellung dieser Inhalte,“ erklärte Pakman.

Ähnlich äußerte sich Dave Wiskus, CEO von Nebula, einem Streaming-Dienst, der teilweise von seinen Schöpfern betrieben wird. Er bezeichnete den Akt als „Diebstahl“ und unterstrich die Respektlosigkeit gegenüber den Schöpfern, die um ihre berufliche Existenz fürchten müssen.

Die rechtlichen Grauzonen

EleutherAI, Entwickler des Datensets, reagierte nicht auf Anfragen hinsichtlich der Nutzung ohne Genehmigung. Man erklärte jedoch, dass das Ziel sei, Zugang zu modernsten KI-Technologien auch jenseits der großen Technologiekonzerne zu bieten. Das YouTube Subtitles-Set besteht aus reinen Texten der Video-Untertitel und Übersetzungen in mehrere Sprachen.

Das Datenset ist Teil einer größeren Sammlung namens „The Pile“, welche Materialien aus diversen Quellen beinhaltet, darunter das Europäische Parlament und Wikipedia. Das Set ist öffentlich zugänglich, jedoch nicht ohne Kontroversen. Beispielhaft ist die Profanität sowie Voreingenommenheit gegenüber Geschlecht und religiösen Gruppen, die im Set entdeckt wurden. Einige der führenden Technologiekonzerne verwenden das Set nachweislich zur Schulung ihrer KI-Modelle, wie etwa Apple und Salesforce.

Die unaufhaltsame Datenmaschinerie

Jai Vipra, KI-Politikforscher, merkt an, dass Unternehmen um hochwertige Daten konkurrieren, weshalb sie ihre Quellen geheim halten. Berichte zufolge nutzt auch Google YouTube-Videos für seine Modelle. OpenAI und andere großen Akteure bestätigen oder dementieren solche Nutzungen meist nicht.

Der Wert solcher Daten liegt laut Experten wie Vipra darin, dass sie helfen, Modelle zu trainieren, um menschliche Sprache zu replizieren.

Betroffene Videokünstler wie Dave Farina von „Professor Dave Explains“ fordern eine Entschädigung oder Regulierung: „Wenn Sie von meiner Arbeit profitieren, sollte es eine Diskussion über eine Art Kompensationsregelung geben.“

YouTube Subtitles umfasst auch Daten von mittlerweile gelöschten Videos. Kommunikationsversuche gegenüber den betroffenen Kanälen blieben meist unbeantwortet. Complexly, Produzent von Großprojekten wie „CrashCourse“, zeigte sich enttäuscht über die fehlende Zustimmung zur Nutzung ihrer Inhalte.

Blick in die Zukunft

Das Runterladen und Scrapen von Inhalten aus YouTube bleibt kontrovers. Ein GitHub-Putzer erklärte, dass sein Skript genau dies ermöglicht, ohne dass YouTube bislang aktiv dagegen eingreift. Google erklärte, Maßnahmen gegen missbräuchliches Scraping zu ergreifen, ließ jedoch Fragen zur Nutzung der Inhalte durch andere Unternehmen unbeantwortet.

Die Geschichten wie die des Papageis „Einstein“, dessen Stimme von KIs verwendet wurde, zeigen die Eigenheiten und die Risiken der weiteren Nutzung solcher Daten. Einmal in der KI eingepflegt, lässt sich das Wissen nicht mehr zurückholen, was die Besorgnis über die zukünftige Nutzung und Missbrauch verstärkt.

Die Debatte um die zukünftige Verwendung und Kompensation solcher Inhalte bleibt offen und ist dringend erforderlich.