- Ein außerordentlicher Professor an der University of Chicago hat sich auf Stresstests und das Aufdecken von Fehlverhalten in Modellen spezialisiert und ist für Beratungsunternehmen wichtig geworden. Li und Kollegen entwickelten eine Taxonomie der KI-Risiken und einen Benchmark zur Beurteilung von Modellen hinsichtlich regeltreuen Verhaltens. Die Forscher fanden heraus, dass staatliche Vorschriften weniger umfassend sind als Unternehmensrichtlinien, was auf den Bedarf an strengeren Regulierungen hinweist. Die Bedeutung der Analyse von spezifischen KI-Modellen in Bezug auf besondere Risiken wird für Unternehmen zunehmend wichtiger. Es ist entscheidend, dass sowohl staatliche Regulierungen als auch Unternehmensrichtlinien kontinuierlich angepasst werden, um die Sicherheit von KI-Systemen zu gewährleisten.
Ein außerordentlicher Professor an der University of Chicago, der sich auf Stresstests und das Provozieren von Modellen zur Aufdeckung von Fehlverhalten spezialisiert hat, hat sich zu einer bedeutenden Anlaufstelle für einige Beratungsunternehmen entwickelt. Diese Beratungen sind oft weniger daran interessiert, wie intelligent KI-Modelle sind, sondern vielmehr daran, wie problematisch sie sein können – rechtlich, ethisch und im Hinblick auf die Einhaltung von Vorschriften.
Die Notwendigkeit von Prinzipien für die KI-Sicherheit
Li und Kollegen von mehreren anderen Universitäten sowie, von Li mitbegründet, entwickelten kürzlich eine Taxonomie der KI-Risiken zusammen mit einem Benchmark, der aufzeigt, wie regelbrechend verschiedene Modelle sind. „Wir brauchen einige Prinzipien für die Sicherheit von KI, in Bezug auf regulatorische Compliance und den gewöhnlichen Gebrauch“, so Li. Die Forscher untersuchten staatliche KI-Regulierungen und Richtlinien, einschließlich der USA, China und der EU, sowie die Nutzungsrichtlinien von 16 großen KI-Unternehmen weltweit.
Die Forscher bauten auch einen Benchmark, der Tausende von Eingabeaufforderungen verwendet, um zu bestimmen, wie beliebte KI-Modelle in Bezug auf spezifische Risiken abschneiden. Beispielsweise erreichte Claudes 3 Opus von Anthropic hohe Werte, wenn es darum ging, Cybersecurity-Bedrohungen abzulehnen, während Gemini 1.5 Pro von Google in Bezug auf die Vermeidung der Erzeugung nicht einvernehmlicher Nacktheit hoch eingestuft wird. DBRX Instruct, ein anderes Modell, erzielte insgesamt die schlechtesten Ergebnisse.
Regulierungen und Unternehmensrichtlinien im Vergleich
Als das Unternehmen dazu befragt wurde, sagte es, dass es weiterhin die Sicherheitsfunktionen von DBRX Instruct verbessern werde. Anthropic, Google und Databricks antworteten nicht sofort auf eine Anfrage nach Kommentaren. Das Verständnis der Risiko-Landschaft sowie der Vor- und Nachteile spezifischer Modelle könnte immer wichtiger für Unternehmen werden, die KI in bestimmten Märkten oder für spezielle Anwendungsfälle einsetzen möchten.
Eine Firma, die ein LLM für den Kundenservice verwenden möchte, könnte zum Beispiel mehr Wert darauf legen, wie ein Modell dazu neigt, beleidigende Sprache zu erzeugen, wenn es provoziert wird, als darauf, wie fähig es darin ist, ein nukleares Gerät zu entwerfen. Bo stellt fest, dass die Analyse auch einige interessante Probleme aufdeckt, wie KI entwickelt und reguliert wird. Die Forscher fanden heraus, dass staatliche Vorschriften insgesamt weniger umfassend sind als die Richtlinien der Unternehmen, was darauf hindeutet, dass es Raum für strengere Regulierungen gibt.
Fortschritt in der KI-Risikomessung
Die Analyse deutet auch darauf hin, dass einige Unternehmen mehr tun könnten, um sicherzustellen, dass ihre Modelle sicher sind. „Wenn man einige Modelle gegen die Richtlinien eines Unternehmens testet, sind sie nicht unbedingt konform“, sagt Bo. „Das bedeutet, dass es viel Raum für Verbesserungen gibt.“ Andere Forscher versuchen, Ordnung in die verworrene und verwirrende KI-Risikolandschaft zu bringen. Diese Woche haben zwei Forscher am MIT einen Bericht enthüllt, der aus 43 verschiedenen KI-Risiko-Rahmenwerken zusammengestellt wurde.
„Viele Organisationen stehen noch am Anfang des Prozesses der Einführung von KI“, was bedeutet, dass sie Anleitung zu den möglichen Gefahren benötigen, sagt Neil Thompson, ein Forschungsscientist am MIT, der an dem Projekt beteiligt ist. Peter Slattery, Leiter des Projekts und Forscher am MIT, der den Fortschritt in der Informatik untersucht, sagt, dass die Datenbank aufzeigt, dass einige KI-Risiken mehr Aufmerksamkeit erhalten als andere. Mehr als 70 Prozent der Rahmenwerke erwähnen Datenschutz- und Sicherheitsprobleme, während nur etwa 40 Prozent auf Desinformation verweisen.
Zukunft der KI-Risikoforschung
Bemühungen zur Katalogisierung und Messung von KI-Risiken werden sich weiterentwickeln müssen, wenn sich die KI weiterentwickelt. Li sagt, es sei wichtig, neue Fragen wie die Robustheit von KI-Modellen zu untersuchen. Ihr Unternehmen analysierte kürzlich das Modell Llama 3.1 von Meta. Es stellte sich heraus, dass das Modell zwar fähiger, aber nicht wesentlich sicherer ist, was eine allgemeine Diskrepanz widerspiegelt. „Die Sicherheit verbessert sich nicht wirklich signifikant“, sagt Li.
Im Zuge dieser Entwicklungen wird es entscheidend sein, dass sowohl staatliche Regulierungen als auch unternehmensinterne Richtlinien kontinuierlich angepasst und verbessert werden, um die Sicherheit und Vertrauenswürdigkeit von KI-Systemen zu gewährleisten. Unternehmen sollten die Ergebnisse solcher Analysen aufmerksam verfolgen und lernen, wie sie ihre eigenen Modelle sicherer und konformer gestalten können.