Harvard revolutioniert KI-Forschung mit riesigem Bücher-Datensatz

Harvard stellt ein Datenset von fast einer Million gemeinfreier Bücher für die KI-Entwicklung zur Verfügung. Das Datenset ist etwa fünfmal größer als vorherige Datensets für Sprachmodelle wie Metas Llama. Ziel ist es, Zugang zu qualitativ hochwertigen Daten für kleinere KI-Akteure zu ermöglichen. Die Harvard-Datenbank wird von Microsoft und OpenAI finanziell unterstützt. Die Initiative steht im Kontext globaler Bemühungen, gemeinfreies Material für KI-Entwicklung zu nutzen.

Die Harvard University hat kürzlich angekündigt, dass sie ein hochqualitatives Datenset von nahezu einer Million gemeinfreier Bücher zur Verfügung stellt, das von jedermann verwendet werden kann, um große Sprachmodelle und andere KI-Tools zu trainieren. Dieses Datenset wurde von Harvards neu initiierter Institutionellen Dateninitiative erstellt und steht unter finanzieller Förderung von Microsoft und OpenAI. Die Bücher wurden im Rahmen des Google Books-Projekts digitalisiert und unterliegen keinem Urheberrechtsschutz mehr. Verglichen mit den vorigen Datensets ist dieses etwa fünfmal so groß wie das, welches für die Ausbildung von KI-Modellen wie Metas Llama verwendet wurde. Die Sammlung umfasst verschiedene Genres, Jahrzehnte und Sprachen, darunter Werke von Shakespeare, Charles Dickens und Dante sowie unbekannte tschechische Mathematik-Lehrbücher und walisische Taschenwörterbücher.

Ein Schub für die Chancengleichheit

Greg Leppert, geschäftsführender Direktor der Institutionellen Dateninitiative, unterstreicht den Versuch, mit diesem Projekt das Spielfeld auszugleichen. Es soll der breiten Öffentlichkeit, einschließlich kleineren Akteuren in der KI-Industrie und individuellen Forschern, der Zugang zu hochgradig verfeinerten und kuratierten Inhaltsrepositorien ermöglicht werden, wie sie normalerweise nur großen Technologiekonzernen vorbehalten sind. Die Bücher haben alle eine gründliche Prüfung durchlaufen. Leppert glaubt, dass die neue gemeinfreie Datenbank zusammen mit anderen lizenzierten Materialien genutzt werden könnte, um KI-Modelle aufzubauen. Er zieht einen Vergleich zur Bedeutung von Linux als fundamentales Betriebssystem und betont, dass Firmen dennoch weitere Trainingsdaten benötigen würden, um ihre Modelle von denen der Konkurrenz abzuheben.

Öffentliche Daten für private Initiativen

Burton Davis, Vizepräsident und stellvertretender General Counsel für geistiges Eigentum bei Microsoft, betont, dass die Unterstützung des Projekts den Bemühungen entspricht, zugängliche Datenpools für KI-Startups zu schaffen, die im Interesse der Öffentlichkeit verwaltet werden. Dabei plant Microsoft keinesfalls, alle verwendeten KI-Trainingsdaten durch gemeinfreie Alternativen wie die Bücher aus der neuen Harvard-Datenbank zu ersetzen. Angesichts laufender Gerichtsverfahren, die sich mit der Nutzung bestimmter Inhalte zum KI-Training befassen, bleibt die Zukunft, wie KI-Tools gebaut werden, ungewiss. Sollten die KI-Unternehmen ihre Fälle gewinnen, könnten sie weiterhin ohne Lizenzvereinbarungen mit Rechteinhabern fortfahren. Verlieren sie jedoch, könnten umfassende Änderungen bei der Modellentwicklung erforderlich werden. Auch andere Projekte vor allem in Frankreich und anderen Ländern treiben ähnliche Initiativen voran, wobei die Harvard-Datenbank nur ein Beispiel in einer wachsenden Bewegung ist, die sich für eine verstärkte Nutzung von gemeinfreiem Material einsetzt.