- Amazon Web Services (AWS) untersucht das Verhalten des KI-Suchunternehmens Perplexity AI wegen des Verdachts des VerstoĂes gegen Richtlinien durch systematisches Scrapen von Webseiten. . Die AWS-Nutzungsbedingungen verbieten die Nutzung ihrer Dienste fĂŒr illegale AktivitĂ€ten, und AWS stellt klar, dass Kunden fĂŒr die Einhaltung aller geltenden Gesetze und Bedingungen verantwortlich sind. . Eine technische Analyse ergab, dass eine virtuelle Maschine auf AWS-Diensten Inhalte von Webseiten gescraped hat, die durch eine robots.txt-Datei geschĂŒtzt waren. . Der CEO von Perplexity AI erklĂ€rt, dass die fragliche IP-Adresse von einer Drittfirma betrieben werde und bestreitet jegliches Fehlverhalten. . Diese VorfĂ€lle werfen rechtliche Fragen auf und könnten zu strengeren Vorschriften und Kontrollen fĂŒr KI-Unternehmen fĂŒhren.
Amazon Web Services (AWS) untersucht derzeit das Verhalten des aufstrebenden KI-Suchunternehmens Perplexity AI. Der Anlass der Ermittlungen ist der Verdacht, dass Perplexity AI durch das systematische Scrapen von Webseiten gegen Richtlinien verstöĂt, obwohl diese Webseiten den Zugang durch den Robots Exclusion Protocol untersagt haben. AWS wurde auf diese Praktiken aufmerksam gemacht und hat bestĂ€tigt, dass eine interne Untersuchung im Gange ist.
Robots Exclusion Protocol und Rechtlichkeit
Das Robots Exclusion Protocol, ein gĂ€ngiger Webstandard, besteht aus einer einfachen Textdatei (wie z.B. wired.com/robots.txt). Diese Datei wird auf einer Domain platziert und signalisiert, welche Seiten nicht von automatisierten Bots und Crawlers besucht werden sollen. Obwohl das Protokoll selbst rechtlich nicht bindend ist, sind die Nutzungsbedingungen der meisten Webseiten dies durchaus. Das bedeutet, dass Unternehmen, die Scraping betreiben, das Protokoll respektieren sollten, um nicht gegen die Nutzungsbedingungen zu verstoĂen.
Ein AWS-Sprecher erklĂ€rte dazu: âDie AWS-Nutzungsbedingungen verbieten unseren Kunden, unsere Dienste fĂŒr illegale AktivitĂ€ten zu nutzen, und unsere Kunden sind dafĂŒr verantwortlich, unsere Bedingungen und alle geltenden Gesetze einzuhalten.â Diese Aussagen verdeutlichen, dass AWS strikt darauf achtet, dass die Kunden sich an die Regeln halten. Das Anliegen um Perplexity AI entstand, nachdem ein Konkurrent dem Unternehmen vorgeworfen hatte, mindestens einen Artikel gestohlen zu haben. Weitere Untersuchungen durch WIRED bestĂ€tigten diesen Verdacht und belegten zudem, dass Systeme von Perplexity auf Inhalte von CondĂ© Nast-Webseiten zugegriffen hatten, obwohl diese durch eine robots.txt-Datei geschĂŒtzt waren.
Spuren im Netz: IP-Adressen und serverseitige AktivitÀten
Die technische Analyse von WIRED brachte ans Licht, dass eine virtuelle Maschine auf AWS-Diensten verwendet wurde, um Inhalte von Webseiten zu scrapen, die dies ausdrĂŒcklich verboten hatten. Diese Scraper-IP-Adresse (44.221.181.252) konnte in den letzten drei Monaten hunderte Male auf CondĂ© Nastâs Webseiten zugreifen. Auch andere namhafte MedienhĂ€user wie The Guardian, Forbes und The New York Times haben Ă€hnliche Zugriffe entdeckt und bestĂ€tigt.
Perplexity AI reagierte auf diese EnthĂŒllungen mit einer ErklĂ€rung des CEO Aravind Srinivas. ZunĂ€chst bestritten sie jegliches Fehlverhalten und beschrieben die Beobachtungen als MissverstĂ€ndnis ihrer Technologie. Der CEO erklĂ€rte, dass die suspecte IP-Adresse von einer Drittfirma betrieben werde, die Web-Crawling-Dienste anbiete. Aufgrund einer Geheimhaltungsvereinbarung nannte er jedoch nicht den Namen dieses Drittunternehmens.
Verschleierung oder MissverstÀndnis?
Einige Tage spĂ€ter Ă€uĂerte sich eine Perplexity-Sprecherin, Sara Platnick, und versicherte, dass das Unternehmen die Anfragen von AWS beantwortet habe und dass es sich um ein normales Prozedere handele. Platnick betonte, dass der PerplexityBot grundsĂ€tzlich die robots.txt-Dateien respektiere, jedoch unter bestimmten Bedingungen â wenn Nutzer eine spezifische URL eingeben â das Protokoll ignoriere.
Die ErklĂ€rung von Perplexity scheint jedoch zu bestĂ€tigen, dass das Unternehmen in einigen FĂ€llen die robots.txt-Regeln nicht einhĂ€lt. Diese Praxis wirft Fragen zur LegalitĂ€t und zu möglichen Verletzungen der Nutzungsbedingungen der betroffenen Webseiten auf. Jason Kint, CEO von Digital Content Next, einer Handelsorganisation fĂŒr digitale Inhalte, erklĂ€rte dazu: âKI-Unternehmen sollten grundsĂ€tzlich davon ausgehen, dass sie keinerlei Rechte haben, Inhalte von Verlagen ohne Erlaubnis zu nutzen.â
Diese VorfĂ€lle haben die Aufmerksamkeit der gesamten Branche auf sich gezogen und könnten dazu fĂŒhren, dass strengere Vorschriften und Kontrollen eingefĂŒhrt werden, um die Praktiken von KI-Firmen zu regulieren. Es bleibt abzuwarten, wie sich die Untersuchungen von AWS entwickeln und welche Konsequenzen daraus resultieren werden.