Enthüllt: Die schockierende Wahrheit hinter Perplexitys Antwortmaschine

Aravind Srinivas bezeichnet Perplexity als “Antwortmaschine” und “das Kind von Wikipedia und ChatGPT”. Das Unternehmen wurde kürzlich von Forbes des Plagiats beschuldigt. WIREDs Analyse zeigt, dass Perplexity das Robots Exclusion Protocol ignoriert. Perplexity verwendet manchmal geheime IP-Adressen, um blockierte Websites zu durchsuchen. Der Chatbot neigt dazu, Informationen zu paraphrasieren und aus bereits vorhandenen digitalen Materialien zu extrapolieren.

Früh im Jahr sprach Aravind Srinivas, CEO von Perplexity, mit dem Magazin WIRED und beschrieb sein Produkt als eine “Antwortmaschine”. Diese dient als Chatbot, der natürliche Sprachantworten auf Eingabebefehle liefert und nach Aussage des Unternehmens in Echtzeit auf das Internet zugreift. Wenige Wochen später, kurz bevor das Unternehmen mit einer Milliarde Dollar bewertet wurde, sagte er erneut, dass Perplexity “wie das Kind von Wikipedia und ChatGPT” sei. Kürzlich wurde Perplexity von Forbes des Plagiats beschuldigt, woraufhin Srinivas erklärte, es handle sich lediglich um einen “Informationsaggregator”.

Wie funktioniert Perplexity?

Der Chatbot selbst beschreibt sich als “von KI betriebene Suchmaschine”, die Funktionen traditioneller Suchmaschinen und Chatbots kombiniert. Er bietet prägnante und aktuelle Antworten auf Nutzeranfragen, indem er Informationen aus aktuellen Artikeln zieht und das Web täglich indexiert. Eine Analyse von WIRED, durchgeführt von Entwickler Robb Knight, zeigt jedoch, dass Perplexity anscheinend das Robots Exclusion Protocol ignoriert. Dieses Protokoll definiert, welche Bereiche einer Website von Bots nicht besucht werden dürfen. WIRED entdeckte, dass eine Maschine, die mit Perplexity verbunden ist, dies auf WIRED.com und anderen Condé Nast Publikationen tat.

Die Analyse von WIRED zeigt außerdem, dass Perplexity trotz seiner Behauptung, sofortige und verlässliche Antworten samt Quellen und Zitaten zu liefern, gelegentlich zur Paraphrasierung neigt. In einem Fall behauptete der Chatbot fälschlicherweise, dass WIRED berichtet habe, ein bestimmter Polizist in Kalifornien habe ein Verbrechen begangen. Trotz seines angeblichen Zugriffs auf originelle WIRED-Berichte hinterließ keines der Logfiles der Maschine erkennbare Spuren auf den Serverprotokollen.

Die Kontroverse um IP-Adressen

Bis vor kurzem veröffentlichte Perplexity in seiner Dokumentation eine Liste der von seinen Crawlern genutzten IP-Adressen, um Transparenz zu signalisieren. Doch wie sowohl WIRED als auch Knight zeigen konnten, greift der Crawler „Perplexity Bot“ in einigen Fällen auf nicht veröffentlichte IP-Adressen zurück, um Websites zu durchsuchen, die seinen Zugriff zu blockieren versuchen.

Eine geheime IP-Adresse, 44.221.181.252, hat laut Condé Nast in den letzten drei Monaten mindestens 822 Zugriffe auf deren Websites getätigt. Ein leitender Ingenieur bei Condé Nast bezeichnet dies als “massive Unterzähligung”, da nur ein Bruchteil der Netzwerkprotokolle erhalten bleibt. WIRED verifizierte die Verbindung der IP-Adresse zu Perplexity, indem ein neues Test-Website erstellt und dessen Serverprotokolle überwacht wurden.

Fragwürdige Informationsbeschaffung

Es scheint außerdem, dass Perplexity trotz der graphischen Darstellung in seiner Benutzeroberfläche, die anzeigt, dass der Chatbot spezifisches Quellmaterial “liest”, in Wirklichkeit keine echten Nachrichtenartikel zusammenfasst, sondern Rekonstruktionen basierend auf URLs und Metadaten. Die Magie, die Perplexity so wertvoll macht, besteht also darin, dass es sowohl das tut, was es nicht tun sollte, als auch das nicht tut, was es behauptet.

Auf eine detaillierte Anfrage von WIRED antwortete Srinivas, dass die Fragen auf einem fundamentalen Missverständnis beruhen, wie Perplexity und das Internet funktionieren. Er bestritt jedoch nicht die berichteten Details und ging nicht auf Nachfragen ein.

Rechtsstreit und Einnahmequellen

Am 6. Juni berichtete Forbes über Eric Schmidts neues Unternehmen und seine KI-gesteuerten Drohnen mit militärischen Anwendungen. Am nächsten Tag stellte Forbes-Redakteur John Paczkowski fest, dass Perplexity den Kernbericht plagiiert hatte. Srinivas antwortete, dass die Produktfunktionalität, die Forbes’ Bericht reproduziert hatte, “unfertig” sei und dass Quellen prominenter zitiert werden müssten. Drei Tage später stellte sich heraus, dass Perplexity Forb’s zweitgrößte Trafficquelle war.

Was Perplexity vorhat, wurde klar, als bekannt wurde, dass das Unternehmen an “Einnahmeteilen mit hochwertigen Verlegern” arbeitet. Diese würden Perplexity und Verlegern gleichermaßen ermöglichen, von der Investition der Verleger in Berichterstattung zu profitieren. Forbes’ Rechtsberater forderte vergangene Woche die Entfernung irreführender Artikel und Schadensersatz.

Schurkische Praktiken?

Die Fokus auf Perplexity verdeckt zu einem gewissen Grad die wichtigere Frage, wie es das tut, was es tut. Der Hauptvorwurf bestreitet nicht, dass Perplexity Geld damit verdient, Nachrichtenartikel zusammenzufassen—eine Praxis, die sowohl legal als auch geschützt ist. Srinivas hat zugegeben, dass Quellen nicht immer korrekt angegeben werden, wies jedoch unethisches oder illegales Verhalten zurück. Perplexity sei ein “Wrapper” um bestehende AI-Systeme und nutzt diese, um in Echtzeit auf das Web zuzugreifen.

WIREDs Analyse zeigt, dass Perplexity trotz blockiertem Crawler durch robots.txt meistens doch in der Lage ist, Artikel zusammenzufassen. Eine Analyse des Condé Nast Systems ergab, dass die IP-Adresse Tausende Male auf Inhalte ohne Erlaubnis zugegriffen hatte.

Ein größeres Problem

Die rechtliche Grauzone des Robot Exclusion Protocols macht es schwierig, rechtliche Schritte gegen solches Verhalten zu unternehmen. Entwickler Knight zeigt sich dennoch erbost über das Verhalten der AI-Unternehmen. Die Analyse deutet ebenfalls darauf hin, dass Perplexity manche Artikel gar nicht zusammenfasst, sondern lediglich Informationen von URLs und Metadaten extrahiert.

Als WIRED eine Test-Website mit einem einzigen Satz erstellte—”Ich bin Reporter bei WIRED”—und Perplexity bat, diese zusammenzufassen, erfand der Chatbot eine detaillierte Geschichte ohne die Seite zu besuchen. Dies zeigt, dass der Chatbot in einigen Fällen nicht auf die tatsächlichen Inhalte zugreift, sondern Informationen extrapoliert.

Trotz der Behauptungen des Unternehmens über Genauigkeit und Zuverlässigkeit, halluziniert der Chatbot oft. Durch Tests konnte nachgewiesen werden, dass der Chatbot in einigen Fällen absurde Geschichten erfindet. Dies wirft Fragen über die Vertrauenswürdigkeit der Ergebnisse auf und zeigt, dass Perplexity manchmal auf zurückgelassenes digitales Material von Suchmaschinen zurückgreift, um Antworten zu generieren.