- Unternehmen für Internet-Infrastruktur führt Werkzeuge für die Überwachung und selektive Blockierung von KI-Daten-Scraping-Bots ein.
- Kostenlose KI-Auditierungswerkzeuge ermöglichen Echtzeitüberwachung und Kontrolle über KI-Crawler.
- Cloudflare bietet erweiterte Bot-Blockierungsdienste, um bestimmte Bots nach Funktion zu blockieren oder zuzulassen.
- Die traditionelle Kontrolle durch robots.txt wird durch umfassendere Sicherheitsmaßnahmen von Cloudflare ergänzt.
- Marktplatz zur Aushandlung von Nutzungsbedingungen zwischen KI-Unternehmen und Website-Besitzern in Planung.
Das Unternehmen für Internet-Infrastruktur führt eine Sammlung von Werkzeugen ein, die das Machtverhältnis zwischen KI-Firmen und den Websites, die sie für Daten durchsuchen, verändern könnten. Ab heute erhalten alle seine Kunden – einschließlich der geschätzten 33 Millionen, die seine kostenlosen Dienste nutzen – die Möglichkeit, KI-Daten-Scraping-Bots zu überwachen und selektiv zu blockieren. Diese vorbeugende Maßnahme erfolgt in Form einer Suite kostenloser KI-Auditierungswerkzeuge, die als Bot Management bezeichnet wird. Das erste dieser Werkzeuge ermöglicht eine Echtzeitüberwachung von Bots. Kunden haben Zugang zu einem Dashboard, das zeigt, welche KI-Crawler ihre Websites besuchen und Daten durchsuchen.
Innovative Schutzmaßnahmen
„Wir haben alle KI-Crawler gekennzeichnet, selbst wenn sie versuchen, ihre Identität zu verbergen“, erklärt Cloudflare-Mitbegründer und CEO Matthew Prince, der von der Europäischen Zentrale des Unternehmens in Lissabon aus spricht, wo er in den letzten Monaten ansässig war. Cloudflare hat außerdem einen erweiterten Bot-Blockierungsdienst eingeführt, der es Kunden ermöglicht, alle bekannten KI-Agenten zu blockieren oder einige zu blockieren und andere zuzulassen. Zu Beginn des Jahres stellte Cloudflare ein Werkzeug vor, mit dem Kunden alle bekannten KI-Bots auf einmal blockieren konnten; diese neue Version bietet mehr Kontrolle, um auszuwählen, welche Bots blockiert oder zugelassen werden sollen. Es ist eher ein Meißel als ein Vorschlaghammer, zunehmend nützlich, da Verlage und Plattformen Vereinbarungen mit KI-Firmen treffen, die Bots freien Lauf lassen.
„Wir wollen es jedem erleichtern, unabhängig von seinem Budget oder seinem technischen Wissen, die Kontrolle darüber zu haben, wie KI-Bots ihre Inhalte nutzen“, sagt Prince. Cloudflare etikettiert Bots nach ihren Funktionen, sodass KI-Agenten, die Trainingsdaten durchsuchen, von KI-Agenten unterschieden werden, die Daten für neuere Suchprodukte abrufen.
Technologische Fortschritte und ethische Fragen
Websites versuchen typischerweise, das Crawlen ihrer Daten zu kontrollieren, indem sie eine Textdatei namens Robots Exclusion Protocol, oder robots.txt, aktualisieren. Diese Datei regelt seit Jahrzehnten, wie Bots das Web durchsuchen. Es ist nicht illegal, robots.txt zu ignorieren, aber vor dem Zeitalter der KI galt es allgemein als Teil des sozialen Kodex des Webs, die Anweisungen in der Datei zu befolgen. Seit dem Zustrom von KI-Scraping-Agenten haben viele Websites versucht, unerwünschtes Crawlen zu verhindern, indem sie ihre robots.txt-Dateien bearbeitet haben.
Dienstleistungen wie die AI-Agenten-Wachhund bieten Werkzeuge, um Website-Besitzern zu helfen, die ständig wachsende Anzahl von Crawlern, die sie blockieren möchten, im Auge zu behalten. Dennoch sind sie durch ein großes Schlupfloch begrenzt: skrupellose Unternehmen neigen dazu, robots.txt-Befehle einfach zu ignorieren oder zu übergehen. Laut Gavin King, Gründer von Dark Visitors, halten sich die meisten der großen KI-Agenten immer noch an robots.txt. „Das war ziemlich beständig“, sagt er. Aber nicht alle Website-Besitzer haben die Zeit oder das Wissen, ihre robots.txt-Dateien ständig zu aktualisieren. Und selbst wenn sie es tun, werden einige Bots die Anweisungen in der Datei umgehen: „Sie versuchen, den Datenverkehr zu verschleiern.“
Cloudflare’s Pionierrolle
Prince sagt, dass Cloudflares Bot-Blockierung kein Befehl sein wird, den diese Art von Schurkenakteuren ignorieren kann. „Robots.txt ist wie das Aufstellen eines ‚Betreten verboten‘-Schildes“, sagt er. „Das hier ist wie eine physische Mauer, die von bewaffneten Wachen patrouilliert wird.“ Genau wie das Unternehmen andere Arten von verdächtigem Webverhalten kennzeichnet, wie z.B. Preissuch-Bots, die für illegale Preisüberwachung verwendet werden, hat es Prozesse entwickelt, um selbst die am sorgfältigsten verborgenen KI-Crawler zu erkennen.
Cloudflare kündigt außerdem einen kommenden Marktplatz an, auf dem Kunden die Nutzungsbedingungen für das Scraping mit KI-Unternehmen aushandeln können, sei es gegen Bezahlung für die Nutzung von Inhalten oder im Tausch gegen Credits zur Nutzung von KI-Diensten für Scraping. „Es ist uns egal, was die Transaktion ist, aber wir glauben, dass es irgendeinen Weg geben muss, den Urhebern von Inhalten einen Mehrwert zurückzugeben“, sagt Prince. „Die Entschädigung muss nicht in Dollar erfolgen. Die Entschädigung kann in Form von Anerkennung oder Credits erfolgen. Sie kann in vielerlei Hinsicht erfolgen.“
Es gibt kein festes Datum für die Einführung dieses Marktes, aber selbst wenn er in diesem Jahr auf den Markt kommt, wird er sich zu einem zunehmend vielfältigen Projekt entwickeln, das die Zusammenarbeit und andere Genehmigungsvereinbarungen zwischen KI-Unternehmen, Verlagen, Plattformen und anderen Websites im Blick hat. Was halten die KI-Unternehmen davon? „Wir haben mit den meisten von ihnen gesprochen, und ihre Reaktionen reichten von ‚das macht Sinn und wir sind offen‘ bis ‚fahrt zur Hölle‘“, sagt Prince. (Er wollte jedoch keine Namen nennen.)
Das Projekt wurde ziemlich schnell umgesetzt. Prince verweist auf ein Gespräch mit dem CEO von Atlantic (und ehemaligen Chefredakteur von WIRED), Nick Thompson, als Inspiration für das Projekt; Thompson hatte darüber gesprochen, wie viele verschiedene Verlage auf heimliche Webscraper gestoßen waren. „Ich liebe es, dass er das macht“, sagt Thompson. Wenn selbst prominente Medienorganisationen Probleme hatten, mit dem Zustrom von Scrappern umzugehen, vermutete Prince, dass unabhängige Blogger und Website-Besitzer noch größere Schwierigkeiten haben würden.