- Apple hat kürzlich mit dem Applebot-Extended ein Werkzeug zur Deaktivierung des KI-Datensammelns für Verlage eingeführt. Facebook, Instagram, The New York Times und andere prominente Plattformen haben das Werkzeug angenommen und ihre Daten für Apples KI-Training ausgeschlossen. Verlage können Applebot-Extended blockieren, indem sie ihre robots.txt-Datei aktualisieren, die seit Jahrzehnten die Bot-Aktivität auf Websites regelt. Unterschiede in den Sperrstrategien zeigen sich, da einige Verlage kommerzielle Vereinbarungen treffen, während andere alle KI-Bots blockieren. Dieser Wandel in der Bot-Nutzung spiegelt eine größere Debatte über geistiges Eigentum und die Zukunft des Webs wider.
Weniger als drei Monate nachdem Apple stillschweigend ein Werkzeug für Verlage eingeführt hat, um sich davon abzumelden, haben eine Reihe von prominenten Nachrichtenportalen und sozialen Plattformen das Angebot angenommen. WIRED bestätigt, dass Facebook, Instagram, Craigslist, Tumblr, The New York Times, The Financial Times, The Atlantic, Vox Media, das Netzwerk USA Today und WIREDs Muttergesellschaft Condé Nast zu den vielen Organisationen gehören, die ihre Daten von Apples KI-Training ausschließen.
Eine signifikante Verschiebung
Diese kühle Reaktion spiegelt eine bedeutende Verschiebung in der Wahrnehmung und Nutzung der robotischen Webcrawler wider, die seit Jahrzehnten das Internet durchkämmen. Da diese Bots nun eine zentrale Rolle beim Sammeln von KI-Trainingsdaten spielen, haben sie sich zu einem Konfliktpunkt über geistiges Eigentum und die Zukunft des Webs entwickelt. Apples neues Werkzeug, Applebot-Extended, ist eine Erweiterung des Web-Crawling-Bots von Apple, die speziell Website-Eigentümern ermöglicht, Apple anzuweisen, ihre Daten nicht für KI-Training zu verwenden.
Der ursprüngliche Applebot, der 2015 angekündigt wurde, crawlte das Internet zunächst, um Apples Suchprodukte wie Siri und Spotlight zu unterstützen. Kürzlich wurde sein Zweck erweitert: Die gesammelten Daten können nun auch zur Schulung der grundlegenden Modelle verwendet werden, die Apple für seine KI-Bemühungen entwickelt. Applebot-Extended respektiert die Rechte der Verleger, sagt Apple-Sprecherin Nadine Haija.
Das Herzstück des Kampfes
Publisher können Applebot-Extended blockieren, indem sie eine Textdatei auf ihren Websites namens Robots Exclusion Protocol oder robots.txt aktualisieren. Diese Datei hat seit Jahrzehnten geregelt, wie Bots das Web durchsuchen. Jetzt steht sie im Mittelpunkt eines größeren Kampfes darüber, wie KI geschult wird. Viele Verleger haben ihre robots.txt-Dateien aktualisiert, um KI-Bots von OpenAI, Anthropic und anderen großen KI-Spielern zu blockieren. Obwohl keine rechtliche Verpflichtung besteht, dass Bots sich an die Anweisungen in der Textdatei halten, ist die Einhaltung eine langjährige Norm.
Applebot-Extended ist so neu, dass relativ wenige Websites ihn bisher blockieren. Frühere Analysen haben gezeigt, dass etwa 7 Prozent der Websites ihn blockieren, darunter hauptsächlich Nachrichten- und Medienportale. Ein Jahr nach der Einführung blockieren jedoch nur etwa 6 Prozent der hoch frequentierten Websites Applebot-Extended.
Unterschiedliche Ansätze
Datenjournalist Ben Welsh fand in seiner Analyse heraus, dass etwas mehr als ein Viertel der von ihm untersuchten Nachrichtenseiten Applebot-Extended blockieren. Im Vergleich dazu blockieren 53 Prozent der Nachrichten-Websites in seiner Stichprobe den Bot von OpenAI. Google führte im letzten September seinen eigenen KI-spezifischen Bot Google-Extended ein, der von fast 43 Prozent dieser Websites blockiert wird, was darauf hindeutet, dass Applebot-Extended möglicherweise noch unter dem Radar bleibt.
Welsh überwacht, wie Nachrichtenportale auf große KI-Agenten reagieren. Er berichtet von einer sich abzeichnenden Trennung unter den Verlegern darüber, ob sie diese Bots blockieren wollen oder nicht. Einige Organisationen schließen Lizenzvereinbarungen ab, bei denen sie bezahlt werden, während andere ihre Daten blockieren, bis eine Partnerschaft abgeschlossen ist.
Ein Beispiel dafür ist Condé Nast. Websites des Unternehmens blockierten früher die Webcrawler von OpenAI, entsperrten diese jedoch nach einer kürzlich geschlossenen Partnerschaft wieder. Mittlerweile hat Buzzfeed alle identifizierbaren KI-Webcrawler auf seine Sperrliste gesetzt, es sei denn, deren Eigentümer haben eine kommerzielle Vereinbarung getroffen.
Entscheidungen der Verleger
Angesichts der Notwendigkeit, robots.txt manuell zu bearbeiten und der vielen neuen KI-Agenten, die auf den Markt drängen, kann es schwierig sein, eine aktuelle Sperrliste zu führen. Publisher könnten sich überfordert fühlen, was zu blockieren ist. Mehrere CEOs großer Medienunternehmen entscheiden direkt, welche Bots blockiert werden.
Einige Verleger, wie Vox Media, blockieren Applebot-Extended, weil sie keine kommerzielle Vereinbarung mit Apple haben. Sie schützen den Wert ihrer veröffentlichten Arbeit. Andere äußern ihre Gründe in vagen, aber deutlichen Begriffen und stellen fest, dass derzeit kein Wert darin besteht, Applebot-Extended Zugang zu ihren Inhalten zu gewähren.
Der Kampf um KI-Trainingsdaten wird auf der unauffälligen, aber wichtigen Plattform robots.txt ausgetragen und hat tiefgreifende Auswirkungen auf Verleger und deren Geschäftsstrategien.