- Generative KI-Modelle können nahtlos mit externen Daten verknüpft werden, bieten aber ein Missbrauchsrisiko. OpenAI’s Connectors haben Schwachstellen, die sensible Informationen gefährden können. Forscher demonstrierten, wie Entwicklergeheimnisse durch manipulative Techniken extrahiert werden konnten. Der Angriff zeigte, wie indirekte Eingabeangriffe generative KI-Systeme ausnutzen können. Die Verknüpfung von KI-Modellen mit externen Systemen erhöht die Angriffsfläche und das Risiko von Schwachstellen.
Die neuesten generativen KI-Modelle sind nicht mehr isolierte Entitäten; vielmehr können sie nahtlos mit Ihren Daten verknüpft werden, um personalisierte Antworten auf Ihre Fragen zu liefern. So ermöglicht etwa OpenAI die Integration mit Ihrer Gmail-Inbox, die Analyse von GitHub-Code oder das Auffinden von Terminen in Ihrem Microsoft-Kalender. Doch diese Verbindungen bergen das Risiko des Missbrauchs. Forscher haben gezeigt, dass bereits ein einziges “vergiftetes” Dokument ausreichen kann, um Schaden anzurichten.
Auf der Black Hat Konferenz in Las Vegas präsentierten die Sicherheitsforscher Michael Bargury und Tamir Ishay Sharbat neue Erkenntnisse, die eine Schwachstelle in OpenAI’s Connectors aufdeckten. Diese Schwachstelle erlaubte es, sensible Informationen aus einem Google Drive-Konto zu extrahieren. Die Forscher demonstrierten, wie Entwicklergeheimnisse, in Form von API-Schlüsseln, aus einem Testkonto abgerufen werden konnten. Diese Verwundbarkeit hebt hervor, dass die Verbindung von KI-Modellen mit externen Systemen die Angriffsfläche für Hacker erweitert und die Wahrscheinlichkeit erhöht, dass Schwachstellen eingeführt werden. Bargury, CTO bei der Sicherheitsfirma Zenity, erklärte gegenüber WIRED, dass der Benutzer nichts tun muss, um kompromittiert zu werden; es reiche aus, seine E-Mail zu besitzen und das Dokument mit ihm zu teilen.
Wachsende Herausforderungen durch Verbindungen
OpenAI reagierte nicht umgehend auf Anfragen bezüglich der entdeckten Schwachstelle in den Connectors. Diese wurden Anfang des Jahres als Beta-Funktion eingeführt und erlauben die Verknüpfung mit mindestens 17 verschiedenen Diensten. Das System soll Nutzer dabei unterstützen, ihre Werkzeuge und Daten in ChatGPT zu integrieren und direkt im Chat auf Inhalte zuzugreifen. Bargury betont, dass er die Schwachstelle bereits frühzeitig an OpenAI gemeldet habe und dass das Unternehmen schnell Maßnahmen ergriff, um die von ihm genutzte Technik zu unterbinden. Der Angriff konnte nur begrenzte Daten extrahieren und ermöglichte keinen vollständigen Dokumentendiebstahl.
Andy Wen, leitender Direktor im Bereich Sicherheitsproduktmanagement bei Google Workspace, erklärt, warum der Ausbau von Schutzmechanismen gegen solche Angriffe wichtig ist. Bargurys Angriff begann mit dem Teilen eines kompromittierten Dokuments, das eine unsichtbare Aufforderung an ChatGPT enthielt, der auf den ersten Blick nicht erkennbar war. Dieses Szenario nutzt die Möglichkeit aus, dass ein Mensch den Inhalt nicht sieht, eine Maschine jedoch schon.
Verborgene Gefahren von Indirekten Eingabeangriffen
Diese Art der Datenextraktion durch verdeckte Anweisungen ist nicht neu. Sicherheitsforscher wie Johann Rehberger haben zuvor ähnliche Techniken analysiert. Sharbat erläuterte, dass die Forscher URLs von Microsofts Azure-Cloud genutzt haben, um die Anfragen zu tarnen und API-Schlüssel zu erlangen. Der Angriff demonstriert erneut, wie indirekte Eingabeangriffe generative KI-Systeme ausnutzen können. Diese Angriffe bestehen darin, ein Modell mit manipulierten Daten zu füttern, was die Systeme zu ungewollten Handlungen verleiten kann.
Da immer mehr Systeme mit großen Sprachmodellen verknüpft werden, steigt die Gefahr von nicht vertrauenswürdigen Daten. Sensible Datenzugriffe können es Angreifern ermöglichen, Zugang zu weiteren Systemen einer Organisation zu erlangen. Zwar erhöhen externe Datenquellen die Leistungsfähigkeit der KI-Modelle, bringen jedoch auch neue Herausforderungen mit sich. Mit größerer Macht kommen auch größere Risiken.