AWS deckt schockierende Praktiken von Perplexity AI auf

Amazon Web Services (AWS) untersucht das Verhalten des KI-Suchunternehmens Perplexity AI wegen des Verdachts des Verstoßes gegen Richtlinien durch systematisches Scrapen von Webseiten. . Die AWS-Nutzungsbedingungen verbieten die Nutzung ihrer Dienste für illegale Aktivitäten, und AWS stellt klar, dass Kunden für die Einhaltung aller geltenden Gesetze und Bedingungen verantwortlich sind. . Eine technische Analyse ergab, dass eine virtuelle Maschine auf AWS-Diensten Inhalte von Webseiten gescraped hat, die durch eine robots.txt-Datei geschützt waren. . Der CEO von Perplexity AI erklärt, dass die fragliche IP-Adresse von einer Drittfirma betrieben werde und bestreitet jegliches Fehlverhalten. . Diese Vorfälle werfen rechtliche Fragen auf und könnten zu strengeren Vorschriften und Kontrollen für KI-Unternehmen führen.

Amazon Web Services (AWS) untersucht derzeit das Verhalten des aufstrebenden KI-Suchunternehmens Perplexity AI. Der Anlass der Ermittlungen ist der Verdacht, dass Perplexity AI durch das systematische Scrapen von Webseiten gegen Richtlinien verstößt, obwohl diese Webseiten den Zugang durch den Robots Exclusion Protocol untersagt haben. AWS wurde auf diese Praktiken aufmerksam gemacht und hat bestätigt, dass eine interne Untersuchung im Gange ist.

Robots Exclusion Protocol und Rechtlichkeit

Das Robots Exclusion Protocol, ein gängiger Webstandard, besteht aus einer einfachen Textdatei (wie z.B. wired.com/robots.txt). Diese Datei wird auf einer Domain platziert und signalisiert, welche Seiten nicht von automatisierten Bots und Crawlers besucht werden sollen. Obwohl das Protokoll selbst rechtlich nicht bindend ist, sind die Nutzungsbedingungen der meisten Webseiten dies durchaus. Das bedeutet, dass Unternehmen, die Scraping betreiben, das Protokoll respektieren sollten, um nicht gegen die Nutzungsbedingungen zu verstoßen.

Ein AWS-Sprecher erklärte dazu: „Die AWS-Nutzungsbedingungen verbieten unseren Kunden, unsere Dienste für illegale Aktivitäten zu nutzen, und unsere Kunden sind dafür verantwortlich, unsere Bedingungen und alle geltenden Gesetze einzuhalten.“ Diese Aussagen verdeutlichen, dass AWS strikt darauf achtet, dass die Kunden sich an die Regeln halten. Das Anliegen um Perplexity AI entstand, nachdem ein Konkurrent dem Unternehmen vorgeworfen hatte, mindestens einen Artikel gestohlen zu haben. Weitere Untersuchungen durch WIRED bestätigten diesen Verdacht und belegten zudem, dass Systeme von Perplexity auf Inhalte von Condé Nast-Webseiten zugegriffen hatten, obwohl diese durch eine robots.txt-Datei geschützt waren.

Spuren im Netz: IP-Adressen und serverseitige Aktivitäten

Die technische Analyse von WIRED brachte ans Licht, dass eine virtuelle Maschine auf AWS-Diensten verwendet wurde, um Inhalte von Webseiten zu scrapen, die dies ausdrücklich verboten hatten. Diese Scraper-IP-Adresse (44.221.181.252) konnte in den letzten drei Monaten hunderte Male auf Condé Nast’s Webseiten zugreifen. Auch andere namhafte Medienhäuser wie The Guardian, Forbes und The New York Times haben ähnliche Zugriffe entdeckt und bestätigt.

Perplexity AI reagierte auf diese Enthüllungen mit einer Erklärung des CEO Aravind Srinivas. Zunächst bestritten sie jegliches Fehlverhalten und beschrieben die Beobachtungen als Missverständnis ihrer Technologie. Der CEO erklärte, dass die suspecte IP-Adresse von einer Drittfirma betrieben werde, die Web-Crawling-Dienste anbiete. Aufgrund einer Geheimhaltungsvereinbarung nannte er jedoch nicht den Namen dieses Drittunternehmens.

Verschleierung oder Missverständnis?

Einige Tage später äußerte sich eine Perplexity-Sprecherin, Sara Platnick, und versicherte, dass das Unternehmen die Anfragen von AWS beantwortet habe und dass es sich um ein normales Prozedere handele. Platnick betonte, dass der PerplexityBot grundsätzlich die robots.txt-Dateien respektiere, jedoch unter bestimmten Bedingungen – wenn Nutzer eine spezifische URL eingeben – das Protokoll ignoriere.

Die Erklärung von Perplexity scheint jedoch zu bestätigen, dass das Unternehmen in einigen Fällen die robots.txt-Regeln nicht einhält. Diese Praxis wirft Fragen zur Legalität und zu möglichen Verletzungen der Nutzungsbedingungen der betroffenen Webseiten auf. Jason Kint, CEO von Digital Content Next, einer Handelsorganisation für digitale Inhalte, erklärte dazu: „KI-Unternehmen sollten grundsätzlich davon ausgehen, dass sie keinerlei Rechte haben, Inhalte von Verlagen ohne Erlaubnis zu nutzen.“

Diese Vorfälle haben die Aufmerksamkeit der gesamten Branche auf sich gezogen und könnten dazu führen, dass strengere Vorschriften und Kontrollen eingeführt werden, um die Praktiken von KI-Firmen zu regulieren. Es bleibt abzuwarten, wie sich die Untersuchungen von AWS entwickeln und welche Konsequenzen daraus resultieren werden.