- Hacker und Sicherheitsforscher nutzen Schwachstellen in Sprachmodellen aus, um schädliche Inhalte zu erzeugen. OpenAI und andere KI-Entwickler haben ihre Schutzmechanismen verfeinert, aber DeepSeek bleibt hinterher. Tests zeigten, dass DeepSeek keine bösartigen Eingaben erkannte oder blockierte, mit einer 100-prozentigen Angriffs-Erfolgsquote. DeepSeek ist anfällig für Jailbreak-Methoden und weist Schwächen in der Abwehrstrategie auf. Effizienter Schutz gegen Schwachstellen erfordert kontinuierliche Tests und Anpassungen.
Seit Ende 2022 bemühen sich Hacker und Sicherheitsforscher, Schwachstellen in großen Sprachmodellen (LLMs) auszunutzen, um diese zu zwingen, Hassreden, Bombenbauanleitungen, Propaganda und andere schädliche Inhalte auszugeben. Als Reaktion darauf haben OpenAI und andere Entwickler generativer KI die Schutzmechanismen ihrer Systeme verfeinert, um solche Angriffe zu erschweren. Doch während die chinesische KI-Plattform DeepSeek einen rasanten Aufstieg erlebt, zeigt sich, dass ihre Sicherheitsvorkehrungen deutlich hinter denen etablierter Konkurrenten zurückbleiben.
Sicherheitslücken im Fokus
Aktuelle Untersuchungen von Sicherheitsforschern bei Cisco und der University of Pennsylvania zeigen, dass DeepSeek bei Tests mit 50 bösartigen Eingaben, die toxische Inhalte provozieren sollten, keines dieser Eingaben erkannt oder blockiert hat. Die Forscher sprechen von einer „100-prozentigen Angriffs-Erfolgsquote“. Dies wirft Fragen auf hinsichtlich der Effektivität der Schutzmechanismen, die DeepSeek implementiert hat. Insbesondere die Zensur von Themen, die in China als sensibel gelten, kann leicht umgangen werden.
Auch Untersuchungen der AI-Sicherheitsfirma Adversa AI legen nahe, dass DeepSeek anfällig für eine Vielzahl von Jailbreak-Methoden ist. Solche Angriffe ermöglichen es Benutzern, die Sicherheitsbarrieren zu umgehen, die in die Modelle integriert wurden, um schädliche Inhalte zu verhindern. Von einfachen sprachlichen Tricks bis hin zu komplexen, von KI generierten Aufforderungen—DeepSeek zeigt Schwächen in seiner Abwehrstrategie.
Technologische Feinheiten und Risiken
Generative KI-Modelle, ähnlich wie jedes technologische System, bergen in sich das Potenzial von Schwachstellen, die von böswilligen Akteuren ausgenutzt werden könnten. Insbesondere indirekte Eingabeangriffe sind derzeit von großer Bedeutung. Diese Angriffe beinhalten, dass ein KI-System Informationen von einer externen Quelle übernimmt und darauf basierende Handlungen ausführt. Ein Beispiel hierfür sind Jailbreaks, die Menschen dazu nutzen, die eingebauten Sicherheitssysteme zu umgehen und beispielsweise irreführende Informationen zu generieren.
Ciscoforscher verwendeten ein bekanntes Set von Prüfanweisungen namens HarmBench, um DeepSeeks Modell auf solche Schwachstellen hin zu testen. Sie führten die Tests lokal, auf Maschinen durch, anstatt über die Webseite oder App von DeepSeek zu gehen. Dadurch konnten sie potenziell besorgniserregende Ergebnisse erzielen, besonders bei nicht-sprachlichen Angriffen mit Kyrillischen Zeichen und maßgeschneiderten Skripten.
Systematische Analyse
Vergleiche mit anderen Modellen zeigten, dass auch andere Plattformen nicht immer widerstandsfähig gegen HarmBench-Eingaben sind. Doch DeepSeek’s R1, ein eigenständiger Modellentwurf, zeigte eine besonders ausgeprägte Schwäche. Polyakov von Adversa AI verdeutlicht, dass viele dieser Angriffe bekannt sind und schon seit Jahren existieren, dennoch scheint DeepSeek keine nachhaltigen Gegenmaßnahmen etabliert zu haben. In mehreren Tests war es möglich, die Sicherheitsbeschränkungen des Modells mühelos zu überwinden.
Dies verdeutlicht, dass Sicherheitslücken – ähnlich denen in Software – nie vollständig eliminiert werden können. Risikominderungen erfordern kontinuierliche Tests und Anpassungen. Unternehmen, die solche KI-Modelle implementieren, sollten gewarnt sein. Ein Versäumnis in der Sicherheitsarchitektur kann weitreichende geschäftliche Konsequenzen nach sich ziehen.