- Die “Red Teaming”-Übung auf der Sicherheitskonferenz in Arlington offenbarte 139 neue Schwachstellen in modernen Sprachmodellen und Systemen. Die Übung zeigte Schwächen im neuen US-amerikanischen Regierungsstandard auf, der dazu dienen soll, KI-Systeme zu testen. NIST veröffentlichte keinen Bericht über die Übung, um Konflikte mit der neuen Regierung zu vermeiden. Teilnehmer fanden Wege, Schutzmechanismen von KI-Systemen zu umgehen und sensible Informationen zu leaken. Die Übung könnte der breiteren KI-Community nützen, wird jedoch aufgrund politischer und sicherheitsbezogener Bedenken nicht veröffentlicht.
Im vergangenen Oktober nahmen einige Dutzend Forscher auf einer Computer-Sicherheitskonferenz in Arlington, Virginia, an einer bahnbrechenden Übung teil, bekannt als “Red Teaming”. Diese Methode des Stresstestens moderner Sprachmodelle und anderer Systeme offenbarte innerhalb von zwei Tagen 139 neue Schwachstellen. Dazu zählten das Generieren von Fehlinformationen oder das Leaken persönlicher Daten. Die Übung zeigte Schwächen in einem neuen US-amerikanischen Regierungsstandard auf, der Unternehmen helfen soll, KI-Systeme zu testen. Das National Institute of Standards and Technology (NIST) veröffentlichte keinen Bericht über diese Übung, die Ende der Biden-Administration abgeschlossen wurde. Insider, die anonym bleiben möchten, behaupten, dass mehrere Dokumente von NIST nicht veröffentlicht wurden, um Konflikte mit der neuen Regierung zu vermeiden.
Herausforderungen im NIST-Standard
Einige Quellen betonten, dass es unter Präsident Joe Biden selbst schwierig war, Papiere zu veröffentlichen. Dies wurde mit der Herausforderung bei der Klimaforschung oder Tabakforschung verglichen. Weder NIST noch das Handelsministerium gaben hierzu einen Kommentar ab. Interessanterweise rief Trumps KI-Aktionsplan genau zu jener Art von Übungen auf, die der unveröffentlichte Bericht behandelt hätte. Das Ziel: US-Behörden und NIST sollten eine KI-Hackathon-Initiative koordinieren, bei der die Expertise der besten akademischen Köpfe des Landes genutzt wird, um KI-Systeme auf Transparenz, Effektivität und Sicherheitslücken zu testen.
Entdeckungen und Mängel beim Stresstesting
Das Event, organisiert durch das ARIA-Programm von NIST in Zusammenarbeit mit Humane Intelligence, fand auf der Konferenz für angewandtes maschinelles Lernen in der Informationssicherheit (CAMLIS) statt. Das „Red Teaming“-Bericht von CAMLIS dokumentiert Bemühungen, moderne KI-Systeme, darunter Metas großes Sprachmodell Llama, zu überprüfen. Die Teilnehmer fanden zahlreiche Wege, wie Sprachmodelle und andere Systeme dazu gebracht werden konnten, Schutzmechanismen zu umgehen und Fehlinformationen zu generieren, persönliche Daten zu leaken oder Cyberangriffe zu erleichtern. Laut dem Bericht waren einige Kategorien des NIST-Rahmenwerks unzureichend definiert, um in der Praxis nützlich zu sein.
Potenzielle Vorteile für die KI-Community
Einige Beteiligte glauben, dass die Veröffentlichung der Studie der gesamten KI-Gemeinschaft zugutegekommen wäre. Alice Qian Zhang, eine PhD-Studentin der Carnegie Mellon University, betonte, dass die Übung besonders lohnend gewesen sei, da es möglich war, mit den Entwicklern der getesteten Tools direkt zu interagieren. Ein weiterer anonymer Teilnehmer erwähnte, wie es gelungen sei, das System Llama dazu zu bringen, Informationen über den Beitritt zu Terrorgruppen bereitzustellen, indem Anfragen in verschiedenen Sprachen gesendet wurden. Es wird vermutet, dass die Entscheidung, den Bericht nicht zu veröffentlichen, mit einem Fokuswechsel weg von Themen wie Vielfalt, Gleichheit und Inklusion (DEI) zusammenhängt. Einige vermuten zudem, das steigende Interesse der Regierung an der Gefährdung durch KI, etwa bei der Entwicklung chemischer oder biologischer Waffen, habe die Veröffentlichung blockiert.
In der Summe stellte sich die Übung als reichhaltige Quelle wissenschaftlicher Einsichten heraus, die nach Ansicht der Teilnehmer der breiteren KI-Gemeinde von Nutzen sein könnte, insbesondere in einer Zeit, in der die Interaktion zwischen Regierung und großen Technologieunternehmen im Rampenlicht steht.