Agentur.rocks
  • Technologien
    • KI
    • Adserver
    • CMS
    • CRM
    • E-Commerce
    • Tools
    • Tracking
  • Marketing
    • Affiliate Marketing
    • Content Marketing
    • Display Advertising
    • Network Marketing
    • Newsletter Marketing
    • Digitales Marketing
    • Push Notifications
    • SEA
    • SEO
    • Social Advertising
    • Personal Marketing
    • Social Media
  • Agenturen
  • Dienstleister
    • Daten Dienstleister
    • Entwickler
    • Server Hosting
  • Tools und Weiteres
    • News
    • Anleitungen
    • Wissen
    • CRM Systeme
    • Tipps & Tricks
    • FAQ
    • Jobs
    • Rechner
      • Cost per Action (CPA) berechnen
      • Cost per Click (CPC) berechnen
      • Cost per Lead (CPL) berechnen
      • Cost per View (CPV)
      • Cost per Order (CPO) berechnen
      • Kosten Umsatz Relation (KUR) berechnen
    • Datenschutz
      • Datenschutz News
      • Datenschutz Tools
Kategorien
  • Adserver
  • Affiliate Marketing
  • Agenturen
  • Allgemein
  • Anleitungen
  • Branchen
  • CMS
  • Content Marketing
  • CRM
  • CRM Anbieter
  • Datenschutz
  • Dienstleister
  • Digitales Marketing
  • Display Advertising
  • E-Commerce
  • Entwickler
  • FAQ
  • Jobs
  • KI
  • Marketing
  • Network Marketing
  • News
  • Newsletter Marketing
  • Online Marketing
  • Personal Marketing
  • Push Notifications
  • SEA
  • SEO
  • Server Hosting
  • Social Advertising
  • Social Media
  • Technologien
  • Tipps & Tricks
  • Tools
  • Tracking
  • Wissen
Bei Google Podcast anhören
Agentur.rocks
  • Technologien
    • KI
    • Adserver
    • CMS
    • CRM
    • E-Commerce
    • Tools
    • Tracking
  • Marketing
    • Affiliate Marketing
    • Content Marketing
    • Display Advertising
    • Network Marketing
    • Newsletter Marketing
    • Digitales Marketing
    • Push Notifications
    • SEA
    • SEO
    • Social Advertising
    • Personal Marketing
    • Social Media
  • Agenturen
  • Dienstleister
    • Daten Dienstleister
    • Entwickler
    • Server Hosting
  • Tools und Weiteres
    • News
    • Anleitungen
    • Wissen
    • CRM Systeme
    • Tipps & Tricks
    • FAQ
    • Jobs
    • Rechner
      • Cost per Action (CPA) berechnen
      • Cost per Click (CPC) berechnen
      • Cost per Lead (CPL) berechnen
      • Cost per View (CPV)
      • Cost per Order (CPO) berechnen
      • Kosten Umsatz Relation (KUR) berechnen
    • Datenschutz
      • Datenschutz News
      • Datenschutz Tools
  • News

Technologie-Giganten nutzen heimlich YouTube-Daten für KI-Training

  • Thomas Harnisch
  • 16.07.2024 18:28
Technologie-Giganten nutzen heimlich YouTube-Daten für KI-Training
Symbolfoto
Total
2
Shares
0
0
2
  • Technologieunternehmen nutzen umstrittene Methoden, um KI-Modelle mit Daten aus YouTube-Videos zu trainieren, oft ohne Wissen der Urheber. Proof News deckte auf, dass Untertitel von 173.536 YouTube-Videos von Unternehmen wie Anthropic, Nvidia, Apple und Salesforce verwendet wurden. Betroffene Videokünstler fordern Entschädigung und Regulierung, da Inhalte ohne Erlaubnis genutzt wurden. Das Datenset „YouTube Subtitles“ ist Teil einer größeren Sammlung namens „The Pile“, die öffentlich zugänglich ist, jedoch kontrovers diskutiert wird. Unternehmen wie Google, OpenAI und andere äußern sich selten klar zur Nutzung von YouTube-Daten für ihre KI-Modelle.

Technologieunternehmen greifen zu umstrittenen Methoden, um ihre datenhungrigen Künstliche-Intelligenz-Modelle zu füttern. Dazu gehören das Sammeln und Auswerten von Inhalten sowie Posts, oft ohne Wissen der Urheber. Eine Untersuchung von Proof News hat aufgedeckt, dass einige der wohlhabendsten KI-Unternehmen der Welt Material aus tausenden YouTube-Videos nutzten, um ihre Modelle zu trainieren, obwohl dies gegen die Regeln der Plattform verstößt.

Die Datenquelle

Unsere Recherche ergab, dass Untertitel aus 173.536 YouTube-Videos, die von über 48.000 Kanälen stammen, von Unternehmen wie Anthropic, Nvidia, Apple und Salesforce verwendet wurden. Das Datenset, YouTube Subtitles genannt, enthält Transkripte von Kanälen wie Khan Academy, MIT und Harvard. Auch Videos von großen Medienhäusern wie dem Wall Street Journal, NPR und der BBC fanden Verwendung, ebenso wie Unterhaltungsformate wie The Late Show With Stephen Colbert, Last Week Tonight With John Oliver und Jimmy Kimmel Live.

Proof News entdeckte zudem Material von YouTube-Größen, darunter Kanäle mit Millionen Abonnenten. Einige Inhalte, die zur Schulung der KI genutzt wurden, verbreiteten Verschwörungstheorien, wie die „Flache-Erde-Theorie“.

Reaktionen der Betroffenen

David Pakman, Betreiber eines politisch linksgerichteten Kanals mit über zwei Millionen Abonnenten, zeigte sich bestürzt: „Niemand hat mich um Erlaubnis gefragt.“ Pakman ist der Ansicht, dass er für die Nutzung seiner Daten entschädigt werden sollte, insbesondere wenn Medienunternehmen Entschädigungen für die Nutzung ihrer Inhalte erhalten. „Das ist mein Lebensunterhalt, und ich investiere Zeit, Ressourcen und Geld in die Erstellung dieser Inhalte,“ erklärte Pakman.

Ähnlich äußerte sich Dave Wiskus, CEO von Nebula, einem Streaming-Dienst, der teilweise von seinen Schöpfern betrieben wird. Er bezeichnete den Akt als „Diebstahl“ und unterstrich die Respektlosigkeit gegenüber den Schöpfern, die um ihre berufliche Existenz fürchten müssen.

Die rechtlichen Grauzonen

EleutherAI, Entwickler des Datensets, reagierte nicht auf Anfragen hinsichtlich der Nutzung ohne Genehmigung. Man erklärte jedoch, dass das Ziel sei, Zugang zu modernsten KI-Technologien auch jenseits der großen Technologiekonzerne zu bieten. Das YouTube Subtitles-Set besteht aus reinen Texten der Video-Untertitel und Übersetzungen in mehrere Sprachen.

Das Datenset ist Teil einer größeren Sammlung namens „The Pile“, welche Materialien aus diversen Quellen beinhaltet, darunter das Europäische Parlament und Wikipedia. Das Set ist öffentlich zugänglich, jedoch nicht ohne Kontroversen. Beispielhaft ist die Profanität sowie Voreingenommenheit gegenüber Geschlecht und religiösen Gruppen, die im Set entdeckt wurden. Einige der führenden Technologiekonzerne verwenden das Set nachweislich zur Schulung ihrer KI-Modelle, wie etwa Apple und Salesforce.

Die unaufhaltsame Datenmaschinerie

Jai Vipra, KI-Politikforscher, merkt an, dass Unternehmen um hochwertige Daten konkurrieren, weshalb sie ihre Quellen geheim halten. Berichte zufolge nutzt auch Google YouTube-Videos für seine Modelle. OpenAI und andere großen Akteure bestätigen oder dementieren solche Nutzungen meist nicht.

Der Wert solcher Daten liegt laut Experten wie Vipra darin, dass sie helfen, Modelle zu trainieren, um menschliche Sprache zu replizieren.

Betroffene Videokünstler wie Dave Farina von „Professor Dave Explains“ fordern eine Entschädigung oder Regulierung: „Wenn Sie von meiner Arbeit profitieren, sollte es eine Diskussion über eine Art Kompensationsregelung geben.“

YouTube Subtitles umfasst auch Daten von mittlerweile gelöschten Videos. Kommunikationsversuche gegenüber den betroffenen Kanälen blieben meist unbeantwortet. Complexly, Produzent von Großprojekten wie „CrashCourse“, zeigte sich enttäuscht über die fehlende Zustimmung zur Nutzung ihrer Inhalte.

Blick in die Zukunft

Das Runterladen und Scrapen von Inhalten aus YouTube bleibt kontrovers. Ein GitHub-Putzer erklärte, dass sein Skript genau dies ermöglicht, ohne dass YouTube bislang aktiv dagegen eingreift. Google erklärte, Maßnahmen gegen missbräuchliches Scraping zu ergreifen, ließ jedoch Fragen zur Nutzung der Inhalte durch andere Unternehmen unbeantwortet.

Die Geschichten wie die des Papageis „Einstein“, dessen Stimme von KIs verwendet wurde, zeigen die Eigenheiten und die Risiken der weiteren Nutzung solcher Daten. Einmal in der KI eingepflegt, lässt sich das Wissen nicht mehr zurückholen, was die Besorgnis über die zukünftige Nutzung und Missbrauch verstärkt.

Die Debatte um die zukünftige Verwendung und Kompensation solcher Inhalte bleibt offen und ist dringend erforderlich.

Mehr zum Thema:
  • Streaming-Dienst Max revolutioniert das Seherlebnis komplett!
    Streaming-Dienst Max revolutioniert das Seherlebnis…
  • Die besten 50 Seo Tipps für Einsteiger
    Die 50 besten SEO Tipps für Einsteiger
  • Die besten kostenlosen CRM Systeme
    CRM – Customer Relationship Management zur…
Total
2
Shares
Share 0
Tweet 0
Pin it 2
Avatar-Foto
Thomas Harnisch

Thomas Harnisch ist Senior Online Marketing Manager mit über 17 Jahren Berufserfahrung, davon mehr als 8 Jahre in der Touristik. Als Hobbyfotograf und -koch probiert Thomas Harnisch gerne neue technische Geräte aus. Wenn er nicht gerade fotografiert oder eine kulinarische Kreation zaubert, verbringt er seine Zeit mit seiner Frau und seiner kleinen Tochter. Mit seinem neuen Blog agentur.rocks möchte Thomas gerne sein Wissen und seine gemachten Erfahrungen teilen.

Dir könnte auch gefallen
Unglaubliche Memorial Day Angebote bei Samsung jetzt entdecken!
Weiterlesen
  • News
Unglaubliche Memorial Day Angebote bei Samsung jetzt entdecken!
  • Thomas Harnisch
  • 23.05.2025 22:10
Weiterlesen
  • News
Ethan Hunt gegen die Entität: Kann er die Welt retten?
  • Thomas Harnisch
  • 23.05.2025 21:07
Weiterlesen
  • News
Entdecke die unglaublichen Deals im Best Buy PC-Gaming-Event!
  • Thomas Harnisch
  • 23.05.2025 20:22
Schreibe einen Kommentar Antworten abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Anzeigen
Peter













Neueste Beiträge
  • Unglaubliche Memorial Day Angebote bei Samsung jetzt entdecken!
    Unglaubliche Memorial Day Angebote bei Samsung jetzt entdecken!
  • Ethan Hunt gegen die Entität: Kann er die Welt retten?
  • Entdecke die unglaublichen Deals im Best Buy PC-Gaming-Event!
  • Nostalgie trifft Zeitreisen: Warum dieses Spiel süchtig macht!
    Nostalgie trifft Zeitreisen: Warum dieses Spiel süchtig macht!
  • Meta triumphiert im Gericht: Datenschutzrechte in Gefahr?
    Meta triumphiert im Gericht: Datenschutzrechte in Gefahr?
  • Gerichtsentscheidung: Facebook-Nutzer im Kampf um ihre Datenrechte!
    Gerichtsentscheidung: Facebook-Nutzer im Kampf um ihre Datenrechte!
Agentur.rocks
  • Datenschutzerklärung
  • Impressum
  • Sitemap
  • Gastbeiträge
  • Portale und Profile
  • Cookies
Der Blog für Marketing-Interessierte
Marketing/CRM
  • Die 50 wichtigsten Marketingbegriffe
  • CRM Systeme
  • CRM – Customer Relationship Management
  • CRM-Marketing Kundenloyalität
  • CRM Systeme für kleine Unternehmen 
  • Network Marketing Firmen
SEO
  • SEO Optimierung
  • Die 50 besten SEO Tipps
  • SEO Optimierung Preis
  • SEO Optimierung kostenlos
E-Commerce
  • E-Commerce
  • E-Commerce Umsatz steigern
  • E-Commerce Online Marktplatz
  • E-Commerce Nische
  • Network Marketing Firmen

Gib dein Suchwort ein und drücke Enter.