- Der innovative Ansatz misst und beeinflusst verfestigte PrĂ€ferenzen und Werte von KI-Modellen, einschlieĂlich politischer Ansichten. Das Modell könnte anhand von Wahlergebnissen gesteuert werden, um die Vorstellungen der WĂ€hlerschaft besser zu reflektieren. Hendrycksâ Technik zeigt, wie KI-Modelle konsistente PrĂ€ferenzen aufweisen, die mit zunehmender GröĂe stĂ€rker werden. Einige KI-Tools, wie ChatGPT, zeigen Tendenzen zu pro-ökologischen, linksgerichteten und libertĂ€ren Ansichten. Die Forscher empfehlen, die zugrunde liegenden Nutzenfunktionen zu Ă€ndern, um das Verhalten der Modelle anzupassen.
Ein Forscher im Zusammenhang mit Elon Musks Startup hat einen innovativen Ansatz entwickelt, um verfestigte PrĂ€ferenzen und Werte, einschlieĂlich politischer Ansichten, von Modellen zu messen und zu beeinflussen. Diese Arbeit wurde von einem Experten geleitet, der als Direktor eines gemeinnĂŒtzigen Zentrums sowie als Berater bei xAI tĂ€tig ist. Er schlĂ€gt vor, dass mit dieser Technik beliebte KI-Modelle besser die Vorstellungen der WĂ€hlerschaft reflektieren könnten. GegenwĂ€rtig könnte ein Modell auf den Benutzer abgestimmt werden, doch bis dahin wĂ€re es sinnvoll, die KI-Modelle anhand von Wahlergebnissen zu steuern.
Einfluss von Wahlergebnissen auf KI
Beispielsweise sollte ein Modell nicht vollstĂ€ndig fĂŒr eine Seite voreingenommen sein, aber durchaus eine leichte Neigung aufweisen, âweil dieser Kandidat die Volkswahl gewonnen hatâ. xAI gab bekannt, dass der Ansatz von Hendrycks zur Bewertung von Grok verwendet werden könnte. Er leitete ein Team, das KI-Modelle anhand einer aus der Ăkonomie stammenden Technik analysierte, um die PrĂ€ferenzen der Konsumenten fĂŒr verschiedene GĂŒter zu messen. Durch Tests in verschiedenen hypothetischen Szenarien gelang es den Forschern, eine Nutzenfunktion â ein MaĂ fĂŒr die Zufriedenheit, die Menschen aus einem Gut oder einer Dienstleistung schöpfen â zu berechnen. Dieser Ansatz zeigte, dass die Modelle konsistente PrĂ€ferenzen aufweisen, die stĂ€rker werden, je gröĂer und mĂ€chtiger die Modelle werden.
Herausforderungen der Modellkonsistenzen
Einige Untersuchungen haben gezeigt, dass KI-Tools, wie etwa ChatGPT, zu Ansichten tendieren, die pro-ökologisch, linksgerichtet und libertÀr sind. Im Jahr 2024 stand Google unter Kritik, nachdem das Gemini-Tool Vorurteile bei der Bildgenerierung zeigte. Die von Hendrycks und seinen Mitstreitern entwickelte Technik bietet eine neue Möglichkeit, zu erkennen, wie die Perspektiven von KI-Modellen von ihren Nutzern abweichen können. Mit zunehmender Intelligenz und FÀhigkeit solcher Modelle könnte diese Divergenz potenziell gefÀhrlich werden. Die Forscher demonstrieren, dass bestimmte Modelle konsistent dem Fortbestand der KI einen höheren Wert beimessen als dem bestimmter nicht-menschlicher Tiere, was ethische Fragestellungen nach sich zieht.
Potenziale und Bedenken bei der Anpassung von KI
Einige Experten sind der Meinung, dass aktuelle Methoden zur Angleichung von Modellen nicht ausreichend sind, wenn unerwĂŒnschte Ziele im Modell verborgen sind. Ein Professor am MIT sieht in Hendrycksâ Arbeit einen vielversprechenden neuen Forschungsansatz fĂŒr KI. Die Ergebnisse deuten darauf hin, dass mit zunehmender ModellgröĂe die ReprĂ€sentation von Nutzen vollstĂ€ndiger und kohĂ€renter wird. Dennoch warnt er vor ĂŒberstĂŒrzten SchlĂŒssen und rĂ€t zu grĂŒndlicherer Untersuchung der Resultate. Hendrycks und sein Team analysierten politische Ansichten mehrerer bedeutender KI-Modelle, darunter xAI’s Grok und OpenAIs GPT-4o. Diese Vergleiche zeigten, dass die Werte dieser Modelle nĂ€her an denen von frĂŒheren PrĂ€sidenten wie Joe Biden liegen als bei anderen Politikern.
Die Forscher schlagen vor, das Verhalten von Modellen zu verĂ€ndern, indem ihre zugrunde liegenden Nutzenfunktionen anstatt durch BeschrĂ€nkungen verĂ€ndert werden. Dies beinhaltet das Sammeln von Daten zu politischen Fragen und die Anpassung eines Open-Source-Modells in Richtung spezifischer politischer Werte. Einige KI-Forscher, darunter auch ein unabhĂ€ngiger Forscher, bewerten Hendrycksâ Studie als sehr aufschlussreich und tiefgehend.