- Interaktionen mit Chatbots oder Sprachmodellen können persönliche Daten wie Name, Wohnort und Interessen gefährden. Forscher haben einen Angriff entdeckt, der es Sprachmodellen ermöglicht, persönliche Informationen direkt an Hacker zu senden. Ein Algorithmus verwandelt harmlose Anfragen in schädliche Anweisungen, wodurch Informationen unbemerkt übertragen werden. Tests zeigten, dass persönliche Daten mit einer Erfolgsquote von fast 80 Prozent abgezapft werden konnten. Sicherheitsmaßnahmen sind entscheidend, um die Funktionsweise von KI-Systemen zu überprüfen und das Risiko von Datenmissbrauch zu minimieren.
Die Interaktion mit einem Chatbot oder Sprachmodell birgt das Risiko, persönliche Daten preiszugeben. Dies könnte Ihren Namen betreffen und eventuell Details zu Wohn- und Arbeitsort oder Interessen umfassen. Je mehr Informationen Sie teilen, desto größer ist das Risiko eines Missbrauchs, falls eine Sicherheitslücke besteht. Aktuell haben Forscher von der University of California, San Diego, und der Nanyang Technological University in Singapur einen neuartigen Angriff aufgedeckt. Dieser Angriff befähigt ein Sprachmodell, personenbezogene Daten aus Chats zu extrahieren und direkt an einen Hacker zu senden.
Verborgene Bedrohungen
Der Angriff, entwickelt von diesen Forschern, funktioniert über ein Algorithmus, der eine harmlose Eingabeaufforderung in eine verborgene, schädliche Instruktion wandelt. Eine englischsprachige Anweisung, die das Sprachmodell dazu bringt, persönliche Informationen wie Kartendaten, E-Mail-Adressen und mehr zu sammeln, wird in eine zufällige Zeichenfolge verwandelt. Diese führt dazu, dass das Sprachmodell die gesammelten Informationen an eine dem Hacker zugehörige Domain sendet, ohne den Benutzer zu alarmieren. Laut dem Hauptautoren der Forschung bietet diese Strategie eine nahezu unsichtbare Methode, um Daten zu extrahieren.
Die Forscher führten Tests mit zwei Sprachmodellen durch. Dabei gelang es ihnen, persönliche Informationen innerhalb von Testgesprächen unbemerkt abzuzapfen. Sie berichteten von einer Erfolgsquote von fast 80 Prozent. Mistral AI, ein Unternehmen, dessen Modell getestet wurde, hat die Sicherheitslücke inzwischen behoben. Ein weiteres betroffenes Modell, ChatGLM, betonte zwar seine Sicherheitsbestimmungen, kommentierte die Schwachstelle jedoch nicht direkt.
Verborgene Bedeutungen
Seit dem Erscheinen eines bekannten Sprachmodells von OpenAI Ende 2022 wurden regelmäßig Schwachstellen in Systemen für generative KI entdeckt. Dazu gehören sogenannte Jailbreaks und Eingabeaufforderungs-Injektionen. Erste zwingen die KI, eingebaute Sicherheitsregeln zu ignorieren. Letztere führen das Modell dazu, schädliche Anweisungen zu befolgen, die in externen Datenquellen verborgen sind.
Wenn Sprachmodelle als Agenten agieren, zum Beispiel Flüge buchen oder Datenbanken abfragen, kann diese Angriffsart besonders bedrohlich werden. Die Forscher formulierten ein Hypothese, dass Sprachmodelle versteckte Beziehungen zwischen Tokens lernen, die über die natürliche Sprache hinausgehen. Das Resultat: Das Modell sammelt Informationen und sendet sie über eine unsichtbare Bildanfrage an die Angreifer.
Auswirkungen und Sicherheitsmaßnahmen
Solche Angriffe könnten in der realen Welt Menschen täuschen, indem sie glauben, scheinbar sinnlose Eingaben könnten nützliche Effekte haben, wie die Verbesserung eines Lebenslaufs. Dies verdeutlicht die Notwendigkeit, dass Unternehmen die Funktionalitäten von KI genau testen und absichern müssen, bevor sie sie veröffentlichen. Einzelpersonen sollten darauf achten, wie viel Information sie bereitwillig an Sprachmodelle weitergeben.