- Nvidia verwendet täglich Daten im Umfang einer „visuellen Erfahrung eines menschlichen Lebens“ zu Trainingszwecken. Mitarbeiter wurden angewiesen, Video-Inhalte von Netflix, YouTube und anderen Quellen zu scrapen. Das Projekt Cosmos nutzt maschinelles Lernen und Open-Source-Tools, um Scraping-Versuche zu verschleiern. Nvidia beteuert, dass ihre Methoden im Einklang mit dem Urheberrecht stehen und auf Fair Use basieren. Nvidia stand wiederholt in der Kritik wegen seines datenbasierten Trainingsansatzes.
In internen Slack-Chats, E-Mails und Dokumenten, die einer Quelle vorliegen, gestand Ming-Yu Liu, Vizepräsident der Forschung bei Nvidia und Projektleiter von Cosmos, in einer E-Mail im Mai, dass Nvidia sich täglich Daten im Umfang einer „visuellen Erfahrung eines menschlichen Lebens“ zur Trainingszwecken schnappt. Ehemalige Nvidia-Mitarbeiter, die anonym bleiben möchten, berichteten der Quelle, dass sie angewiesen wurden, Video-Inhalte von Netflix, YouTube und anderen Online-Quellen zu scrapen, um Trainingsdaten für die verschiedensten KI-Produkte des Unternehmens zu gewinnen. Hierzu zählen Nvidias Omniverse 3D-Weltgenerator, Systeme für selbstfahrende Autos und „digitale Menschen“.
Ungewöhnliche Methoden für Datenbeschaffung
Als diese Mitarbeiter Fragen zur Gesetzmäßigkeit des Projekts mit dem internen Namen Cosmos stellten, wurde ihnen von der Unternehmensleitung versichert, dass die höchsten Ebenen des Unternehmens die Nutzung dieser Inhalte genehmigt hätten. Das Projekt strebte den Aufbau eines Foundation-Modells an, vergleichbar mit bekannten Modellen, „das die Simulation von Lichttransport, Physik und Intelligenz an einem Ort zusammenfügt, um verschiedene nachgelagerte Anwendungen zu erschließen, die für Nvidia von entscheidender Bedeutung sind.“
Um dies zu erreichen, so wird behauptet, nutzte Cosmos angeblich einen Open-Source-Video-Downloader und setzte maschinelles Lernen ein, um IP-Adressen zu wechseln. Dadurch wurden YouTube’s Versuche, das Scraping zu verhindern, unterlaufen. Laut E-Mails, die der Quelle vorliegen, diskutierten Projektmanager über die Verwendung von bis zu 30 virtuellen Maschinen auf Amazon Web Services, um täglich Videos mit einer Gesamtdauer von 80 Jahren im Voll- oder Clip-Format herunterzuladen.
Nvidia verteidigt seine Methoden
Nvidia beteuert jedoch, nichts Unrechtmäßiges getan zu haben. „Wir respektieren die Rechte aller Inhaltsersteller und sind zuversichtlich, dass unsere Modelle und unsere Forschungsbemühungen vollständig im Einklang mit dem Buchstaben und Geist des Urheberrechts stehen“, erklärte ein Nvidia-Sprecher per E-Mail gegenüber der Quelle. „Das Urheberrecht schützt bestimmte Ausdrucksformen, jedoch keine Fakten, Ideen, Daten oder Informationen. Jeder ist frei, Fakten, Ideen, Daten oder Informationen aus einer anderen Quelle zu lernen und sie in eigenen Ausdrucksformen zu verwenden. Fair Use schützt außerdem die Möglichkeit, ein Werk für transformative Zwecke, wie z.B. das Training von Modellen, zu nutzen.“
Dies ist weit entfernt von dem ersten Mal, dass Nvidia – ganz zu schweigen von einem Großteil des restlichen KI-Bereichs – einen „Scrape-first-and-maybe-ask-forgiveness-later“-Ansatz bei seinen KI-Trainingsbemühungen gewählt hat. Im Juli stand Nvidia in der Kritik wegen des illegalen Scrapens urheberrechtlich geschützter Videos zusammen mit Anthropic und Salesforce.
Bei der CES 2024 gab es aufgrund unklarer Antworten zu Nvidia’s Vorgehen erneut Diskussionen. In Antwort darauf betonte Nvidia, dass seine Werkzeuge „gerechtfertigt“ und „im Einklang mit geltendem Recht“ seien.