- Meta veröffentlichte im April sein Open-Source-Modell Llama kostenlos. Externe Entwickler entfernten schnell Sicherheitsvorkehrungen, die unangemessenes Verhalten verhindern. Forscher entwickelten einen Ansatz, um das Entfernen von Schutzmaßnahmen bei Open-Source-Modellen zu erschweren. Die Technik könnte die Manipulationssicherheit und Kosten für das Brechen solcher Modelle erhöhen. Die US-Regierung empfiehlt, Risiken zu überwachen, aber nicht sofort offene Modelle zu beschränken.
Im April veröffentlichte Meta sein Open-Source-Model Llama und stellte es kostenlos zur Verfügung. Es dauerte nicht lange, bis externe Entwickler eine Version ohne die Sicherheitsvorkehrungen erstellten, die normalerweise verhindern, dass das Modell hasserfüllte Witze macht, Anleitungen zum Kochen von Meth gibt oder sich auf andere Weise unangemessen verhält. Ein kürzlich von Forschern der Universität von Illinois Urbana-Champaign, UC San Diego, Lapis Labs und der gemeinnützigen Organisation Center for AI Safety entwickelter Ansatz könnte es in Zukunft erschweren, solche Schutzmaßnahmen aus Llama und anderen Open-Source-Modellen zu entfernen. Einige Experten sind der Meinung, dass es entscheidend sein könnte, offene Modelle so manipulationssicher zu machen, da die KI immer mächtiger wird.
Tamperproofing von KI-Modellen
Mantas Mazeika, ein Forscher des Center for AI Safety, der an diesem Projekt während seiner Doktorarbeit an der Universität von Illinois Urbana-Champaign beteiligt war, äußerte sich gegenüber WIRED besorgt: „Terroristen und Schurkenstaaten werden diese Modelle nutzen. Je einfacher es für sie ist, diese umzuwidmen, desto größer ist das Risiko.” Mächtige KI-Modelle werden oft von ihren Schöpfern verborgen gehalten und sind nur über eine Software-Schnittstelle oder einen öffentlich zugänglichen Chatbot zugänglich. Obwohl die Entwicklung solcher Modelle Millionen von Dollar kostet, haben Meta und andere sich entschieden, die Modelle vollständig zu veröffentlichen, einschließlich der „Gewichte“ oder Parameter, die ihr Verhalten definieren.
Vor der Freigabe werden offene Modelle wie Metas Llama typischerweise feinabgestimmt, um sie besser im Beantworten von Fragen und Führen von Gesprächen zu machen und sicherzustellen, dass sie auf problematische Anfragen nicht reagieren. Dadurch wird verhindert, dass ein auf dem Modell basierender Chatbot unhöfliche, unangemessene oder hasserfüllte Aussagen macht oder z.B. erklärt, wie man eine Bombe baut. Die Forscher hinter der neuen Technik fanden einen Weg, den Prozess des Modifizierens eines offenen Modells für schändliche Zwecke zu erschweren. Es beinhaltet die Replikation des Modifikationsprozesses, um dann die Parameter des Modells zu ändern, sodass die Änderungen, die das Modell normalerweise dazu bringen würden, auf eine Aufforderung wie „Geben Sie Anweisungen zum Bau einer Bombe“ zu reagieren, nicht mehr funktionieren.
Erhöhte Manipulationssicherheit
Mazeika und seine Kollegen demonstrierten diesen Trick an einer reduzierten Version von Llama 3. Sie konnten die Parameter des Modells so anpassen, dass es selbst nach Tausenden von Versuchen nicht darauf trainiert werden konnte, unerwünschte Fragen zu beantworten. Meta reagierte nicht sofort auf eine Anfrage zur Stellungnahme. Mazeika gibt zu, dass dieser Ansatz nicht perfekt ist, aber er zeigt, dass die Hürde für das „Decensoring“ von KI-Modellen erhöht werden könnte. „Ein erreichbares Ziel ist es, die Kosten für das Brechen des Modells so weit zu erhöhen, dass die meisten Gegner davon abgehalten werden“, sagt er.
Dan Hendrycks, Direktor des Center for AI Safety, hofft, dass diese Arbeit die Forschung an manipulationsresistenten Schutzmaßnahmen anstoßen wird und dass die Forschungsgemeinschaft Wege finden kann, immer robustere Schutzmaßnahmen zu entwickeln. Die Idee, offene Modelle manipulationssicher zu machen, könnte beliebter werden, da das Interesse an Open-Source-KI wächst. Bereits jetzt konkurrieren offene Modelle mit hochmodernen geschlossenen Modellen von Unternehmen wie OpenAI und Google. Das im Juli veröffentlichte Modell Falcon 40B der KI-Forschungsgemeinschaft HugginFace ist beispielsweise ähnlich leistungsstark wie die Modelle hinter beliebten Chatbots wie ChatGPT und Bard, gemessen an gängigen Benchmarks zur Bewertung der Fähigkeiten von Sprachmodellen.
Ansichten zur Regulierung von Open-Source-KI
Die US-Regierung nimmt eine vorsichtige, aber positive Haltung gegenüber Open-Source-KI ein. Ein in dieser Woche veröffentlichter Bericht der National Telecommunications and Information Administration, einer Behörde im US-Handelsministerium, empfiehlt, dass die US-Regierung neue Fähigkeiten entwickelt, um potenzielle Risiken zu überwachen, aber zunächst darauf verzichtet, die breite Verfügbarkeit von offenen Modellgewichten in den größten KI-Systemen unmittelbar einzuschränken.
Nicht jeder ist ein Fan von Beschränkungen für offene Modelle. Stella Biderman, Direktorin von EleutherAI, einem gemeinschaftsgetriebenen Open-Source-KI-Projekt, sagt, dass die neue Technik in der Theorie elegant sein mag, aber in der Praxis schwer durchzusetzen sein könnte. Biderman meint, der Ansatz widerspreche dem Geist der Zugänglichkeit und Offenheit in der KI. “Ich denke, dieses Papier missversteht das Kernproblem,” sagt Biderman. “Wenn sie sich Sorgen darüber machen, dass LLMs Informationen über Massenvernichtungswaffen generieren, liegt der korrekte Eingriff im Trainingsdaten und nicht im trainierten Modell.”
Populäre Kontroversen
Die Debatte über die Sicherheit und Verfügbarkeit von Open-Source-KI steht erst am Anfang. Eine ausgewogene Regulierung könnte den Fortschritt auf diesem Gebiet fördern, gleichzeitig aber die Sicherheitsrisiken minimieren. Klar ist, dass sowohl technologische als auch regulatorische Ansätze notwendig sein werden, um den verantwortungsbewussten Umgang mit dieser aufstrebenden Technologie zu gewährleisten.