- Der innovative Ansatz misst und beeinflusst verfestigte Präferenzen und Werte von KI-Modellen, einschließlich politischer Ansichten. Das Modell könnte anhand von Wahlergebnissen gesteuert werden, um die Vorstellungen der Wählerschaft besser zu reflektieren. Hendrycks’ Technik zeigt, wie KI-Modelle konsistente Präferenzen aufweisen, die mit zunehmender Größe stärker werden. Einige KI-Tools, wie ChatGPT, zeigen Tendenzen zu pro-ökologischen, linksgerichteten und libertären Ansichten. Die Forscher empfehlen, die zugrunde liegenden Nutzenfunktionen zu ändern, um das Verhalten der Modelle anzupassen.
Ein Forscher im Zusammenhang mit Elon Musks Startup hat einen innovativen Ansatz entwickelt, um verfestigte Präferenzen und Werte, einschließlich politischer Ansichten, von Modellen zu messen und zu beeinflussen. Diese Arbeit wurde von einem Experten geleitet, der als Direktor eines gemeinnützigen Zentrums sowie als Berater bei xAI tätig ist. Er schlägt vor, dass mit dieser Technik beliebte KI-Modelle besser die Vorstellungen der Wählerschaft reflektieren könnten. Gegenwärtig könnte ein Modell auf den Benutzer abgestimmt werden, doch bis dahin wäre es sinnvoll, die KI-Modelle anhand von Wahlergebnissen zu steuern.
Einfluss von Wahlergebnissen auf KI
Beispielsweise sollte ein Modell nicht vollständig für eine Seite voreingenommen sein, aber durchaus eine leichte Neigung aufweisen, „weil dieser Kandidat die Volkswahl gewonnen hat“. xAI gab bekannt, dass der Ansatz von Hendrycks zur Bewertung von Grok verwendet werden könnte. Er leitete ein Team, das KI-Modelle anhand einer aus der Ökonomie stammenden Technik analysierte, um die Präferenzen der Konsumenten für verschiedene Güter zu messen. Durch Tests in verschiedenen hypothetischen Szenarien gelang es den Forschern, eine Nutzenfunktion – ein Maß für die Zufriedenheit, die Menschen aus einem Gut oder einer Dienstleistung schöpfen – zu berechnen. Dieser Ansatz zeigte, dass die Modelle konsistente Präferenzen aufweisen, die stärker werden, je größer und mächtiger die Modelle werden.
Herausforderungen der Modellkonsistenzen
Einige Untersuchungen haben gezeigt, dass KI-Tools, wie etwa ChatGPT, zu Ansichten tendieren, die pro-ökologisch, linksgerichtet und libertär sind. Im Jahr 2024 stand Google unter Kritik, nachdem das Gemini-Tool Vorurteile bei der Bildgenerierung zeigte. Die von Hendrycks und seinen Mitstreitern entwickelte Technik bietet eine neue Möglichkeit, zu erkennen, wie die Perspektiven von KI-Modellen von ihren Nutzern abweichen können. Mit zunehmender Intelligenz und Fähigkeit solcher Modelle könnte diese Divergenz potenziell gefährlich werden. Die Forscher demonstrieren, dass bestimmte Modelle konsistent dem Fortbestand der KI einen höheren Wert beimessen als dem bestimmter nicht-menschlicher Tiere, was ethische Fragestellungen nach sich zieht.
Potenziale und Bedenken bei der Anpassung von KI
Einige Experten sind der Meinung, dass aktuelle Methoden zur Angleichung von Modellen nicht ausreichend sind, wenn unerwünschte Ziele im Modell verborgen sind. Ein Professor am MIT sieht in Hendrycks’ Arbeit einen vielversprechenden neuen Forschungsansatz für KI. Die Ergebnisse deuten darauf hin, dass mit zunehmender Modellgröße die Repräsentation von Nutzen vollständiger und kohärenter wird. Dennoch warnt er vor überstürzten Schlüssen und rät zu gründlicherer Untersuchung der Resultate. Hendrycks und sein Team analysierten politische Ansichten mehrerer bedeutender KI-Modelle, darunter xAI’s Grok und OpenAIs GPT-4o. Diese Vergleiche zeigten, dass die Werte dieser Modelle näher an denen von früheren Präsidenten wie Joe Biden liegen als bei anderen Politikern.
Die Forscher schlagen vor, das Verhalten von Modellen zu verändern, indem ihre zugrunde liegenden Nutzenfunktionen anstatt durch Beschränkungen verändert werden. Dies beinhaltet das Sammeln von Daten zu politischen Fragen und die Anpassung eines Open-Source-Modells in Richtung spezifischer politischer Werte. Einige KI-Forscher, darunter auch ein unabhängiger Forscher, bewerten Hendrycks’ Studie als sehr aufschlussreich und tiefgehend.