- WIRED veröffentlichte einen Artikel über das KI-Startup Perplexity, das des Plagiats beschuldigt wurde.
- Perplexity scrapte Inhalte von Websites, die für ihre Crawler gesperrt waren, entgegen ihren öffentlichen Aussagen.
- Eine spezifische IP-Adresse, die höchstwahrscheinlich Perplexity gehört, besuchte häufig Domains von Condé Nast.
- Ein Experiment zeigte, dass Perplexitys Chatbot generierte Texte ohne nachweisbaren Zugriff auf die Quelle lieferte.
- Rechtsexperten sind uneinig, ob es sich um eine eindeutige Urheberrechtsverletzung handelt, weisen aber auf mögliche rechtliche Probleme hin.
Früher diese Woche veröffentlichte WIRED einen Artikel über das KI-gestützte Suchmaschinen-Startup Perplexity, das von Forbes des Plagiats beschuldigt wurde. Mein Kollege Dhruv Mehrotra und ich enthüllten, dass das Unternehmen heimlich Inhalte von Websites scrapte, die Entwickler für ihre Crawler gesperrt hatten, entgegen den eigenen öffentlichen Aussagen, das Robots Exclusion Protocol zu respektieren. Unsere Untersuchungen und die eines Entwicklers namens Robb Knight identifizierten eine spezifische IP-Adresse, die fast sicher Perplexity gehört und nicht in dessen öffentlicher IP-Range aufgeführt ist. Diese IP-Adresse besuchte mindestens 822 Mal in den letzten drei Monaten Domains von Condé Nast, dem Eigentümer von WIRED.
Ungeklärte Praktiken
Ein Experiment zeigte, dass Perplexitys Chatbot Text über ein Mädchen, das einem Pilzpfad folgt, generierte, obwohl die Server-Logs keinen Zugriffsversuch auf die zugehörige Website zeigten. Der CEO von Perplexity, Aravind Srinivas, bestritt die spezifischen Details von WIREDs Bericht nicht, erklärte aber, dass WIRED eine grundlegende Missverständnis der Funktionsweise von Perplexity und dem Internet hätte. Trotz seiner Bewertung mit einer Milliarde Dollar und bevorstehenden Gesprächen, die es auf drei Milliarden Dollar schätzen könnten, bestreitet Perplexity nicht die Vorwürfe.
Nach Veröffentlichung des Artikels forderten wir drei führende Chatbots auf, über die Geschichte zu berichten. Zwei der Chatbots boten Hypothesentexte an, gaben jedoch zu, keinen Zugriff auf den Artikel gehabt zu haben. Der Perplexity-Chatbot hingegen erstellte eine sechs Absätze umfassende Zusammenfassung der Artikelinhalte. WIREDs Server-Logs zeigen, dass dieselbe IP-Adresse, die unseren und Knights Erkenntnissen zufolge fast sicher Perplexity gehört, versuchte, den Artikel am Tag der Veröffentlichung zu besuchen, jedoch eine 404-Antwort erhielt.
Plagiatsvorwürfe und unbeantwortete Fragen
Ein Zitat aus einem Absatz ließ uns und unsere Kollegen auf Plagiat schließen: “Stattdessen erfand er eine Geschichte über ein junges Mädchen namens Amelia, das einem Weg von leuchtenden Pilzen in einen magischen Wald namens Whisper Woods folgt.” Dies erfüllte die Kriterien des Poynter Institute, das besagt, dass sieben bis zehn aufeinanderfolgende Wörter schwer zufällig repliziert werden können. John Schwartz von der University of Texas äußerte nach dem Lesen des Originaltextes und der Zusammenfassung, dass er dies bei einem seiner Studenten als Plagiat werten würde. Bill Grueskin von der Columbia Journalism School meinte, es sei “ziemlich in Ordnung” für einen Chatbot, aber die wörtliche Wiedergabe ohne Anführungszeichen sei natürlich problematisch.
Rechtsexperten wie James Grimmelmann von der Cornell University sehen hier möglicherweise keine eindeutige Verletzung des Urheberrechts, da die Zusammenfassung Tatsachen berichtet, die nicht urheberrechtlich geschützt sind. Er weist jedoch darauf hin, dass Perplexity andere rechtliche Probleme wie Verbraucherschutz oder unlautere Werbung haben könnte, da es behauptet, das Robots Exclusion Protocol zu respektieren, dies jedoch offenbar nicht tut. Pam Samuelson von der UC Berkeley argumentiert, dass ein einzelner wörtlicher Satz die Ansprüche auf Urheberrechtsverletzung nicht notwendig stützen würde.
Berechtigte Bedenken und zukünftige Perspektiven
Es besteht die Notwendigkeit, dass urheberrechtliche Rahmenbedingungen stärker an die Herausforderungen im Zusammenhang mit generativer KI angepasst werden. Bhamati Viswanathan von der New England Law weist darauf hin, dass die technischen Aspekte dieser Streitigkeiten überdacht werden müssen, um einen Markt zu unterstützen, in dem kreative Arbeiten von Journalisten geschützt sind. Ein neues rechtliches Framework könnte notwendig sein, um kreative Wirtschaften zu erhalten und Innovation zu fördern.
Ironischerweise zeigt die Entwicklung der KI, dass Kreativität wertvoller und gefragter denn je ist. Doch dies darf nicht zu einer Erosion der Lebensgrundlagen führen, die kreative Profis und Journalisten stützen. Hier besteht dringender Handlungsbedarf, um ein Gleichgewicht herzustellen und ein nachhaltiges Ökosystem für kreative Inhalte zu sichern.