OpenAI verbirgt, wie ihr neuestes KI-Modell wirklich denkt!

OpenAI schützt die rohen Gedankenkette des o1-Modells und zeigt Nutzern nur eine gefilterte Version. Nutzer, die versuchen, auf die Gedankenkette zuzugreifen, erhalten Warn-E-Mails und Drohungen mit Sperren. Hacker und Enthusiasten versuchen, die verdeckte Gedankenkette zu enthüllen, was zu Konflikten mit OpenAI führt. OpenAI erklärt, dass das Verbergen der Gedankenkette wichtig für die Überwachung und kommerzielle Interessen sei. Kritiker wie Simon Willison äußern Bedenken wegen des Verlusts von Transparenz und Interpretierbarkeit.

OpenAI möchte wahrlich nicht, dass Sie erfahren, was ihr neuestes KI-Modell “denkt.” Seit der Veröffentlichung letzte Woche, bei der die sogenannten Denkfähigkeiten von o1-preview und o1-mini hervorgehoben wurden, hat OpenAI Warn-E-Mails und Drohungen mit Sperren an jeden Nutzer verschickt, der versucht, herauszufinden, wie das Modell funktioniert. Im Gegensatz zu früheren KI-Modellen von OpenAI wurde o1 speziell darauf trainiert, einen schrittweisen Problemlösungsprozess zu durchlaufen, bevor eine Antwort generiert wird. Wenn Nutzer einem “o1”-Modell eine Frage stellen, haben sie die Möglichkeit, diesen Gedankengang im ChatGPT-Interface zu sehen. OpenAI verbirgt jedoch bewusst die rohe Gedankenkette vor den Nutzern und präsentiert stattdessen eine gefilterte Interpretation, die von einem zweiten KI-Modell erstellt wird.

Verborgene Gedankenkette

Nichts ist verlockender für Enthusiasten als verdeckte Informationen. So haben sich Hacker und Red-Teamer auf die Jagd gemacht, um die rohe Gedankenkette von o1 mit Techniken zu enthüllen, die darauf abzielen, das Modell dazu zu bringen, seine Geheimnisse preiszugeben. Es gibt Berichte über erste Erfolge, doch bisher ist nichts eindeutig bestätigt. Währenddessen beobachtet OpenAI alles durch das ChatGPT-Interface und geht Berichten zufolge streng gegen jede Versuche vor, o1s Gedankengänge zu durchleuchten, selbst bei den bloß Neugierigen. Ein X-Nutzer (bestätigt von, darunter Scale AI Prompt Engineer) berichtete, dass er eine Warn-E-Mail erhalten habe, wenn er den Begriff “reasoning trace” im Gespräch mit o1 verwendete. Andere berichteten, dass die Warnung bereits durch das bloße Fragen nach dem “Reasoning” ausgelöst werde.

Die Warn-E-Mail von OpenAI besagt, dass bestimmte Nutzeranfragen aufgrund von Verstößen gegen Richtlinien zum Umgehen von Schutzmaßnahmen markiert wurden. “Bitte stellen Sie diese Aktivitäten ein und vergewissern Sie sich, dass Sie ChatGPT gemäß unseren Nutzungsbedingungen und unseren Nutzungsrichtlinien verwenden,” heißt es darin. “Weitere Verstöße gegen diese Richtlinie können zum Verlust des Zugangs zu GPT-4o mit Reasoning führen,” bezugnehmend auf den internen Namen für das o1-Modell. Marco Figueroa, der Mozillas GenAI-Bug-Bounty-Programme leitet, gehörte zu den Ersten, die letzte Woche über die Warn-E-Mail von OpenAI auf X berichteten und sagte, dass sie seine Fähigkeit hindere, positives Red-Team-Sicherheitsforschung am Modell durchzuführen. “Ich war zu sehr in #AIRedTeaming vertieft, um zu realisieren, dass ich gestern diese E-Mail von @OpenAI erhalten habe, nachdem ich alle meine Jailbreaks durchgeführt hatte,” schrieb er. “Ich stehe nun auf der Liste derjenigen, die gebannt werden könnten!”

Frustration über versteckte Prozesse

In einem Beitrag auf OpenAIs Blog erklärt das Unternehmen, dass verborgene Gedankenkette in KI-Modellen eine einzigartige Überwachungsmöglichkeit bieten, die es ihnen ermöglicht, “den Geist” des Modells zu lesen und dessen sogenanntes Denkprozess zu verstehen. Diese Prozesse sind für das Unternehmen am nützlichsten, wenn sie roh und unzensiert bleiben, doch das könnte aus mehreren Gründen nicht mit den besten kommerziellen Interessen des Unternehmens übereinstimmen.

“Zum Beispiel könnten wir in Zukunft die Gedankenkette auf Anzeichen für Manipulation des Nutzers überwachen wollen,” schreibt das Unternehmen. “Damit das funktioniert, muss das Modell die Freiheit haben, seine Gedanken in unveränderter Form auszudrücken. Wir können daher keine Richtlinienkonformität oder Benutzerpräferenzen auf die Gedankenkette trainieren. Wir möchten auch nicht, dass eine nicht abgestimmte Gedankenkette direkt für Nutzer sichtbar ist.”

OpenAI entschied sich dagegen, die rohen Gedankenkette den Nutzern zu zeigen, unter Verweis auf Faktoren wie die Notwendigkeit, einen Rohdaten-Feed für den eigenen Gebrauch zu behalten, die Benutzererfahrung und den “Wettbewerbsvorteil.” Das Unternehmen erkennt an, dass die Entscheidung Nachteile hat. “Wir bemühen uns, dies teilweise dadurch auszugleichen, dass wir das Modell lehren, nützliche Ideen aus der Gedankenkette in der Antwort wiederzugeben,” schreiben sie.

Wettbewerbsnachteile verhindern

Unabhängiger KI-Forscher Simon Willison äußerte Frustration über diese Entscheidung auf seinem persönlichen Blog. “Ich interpretiere [das] als den Wunsch, zu verhindern, dass andere Modelle gegen die Denkarbeit trainieren können, in die sie investiert haben,” schreibt er. Es sei ein offenes Geheimnis in der KI-Branche, dass Forscher OpenAIs GPT-4 (und vorher GPT-3) als Trainingsdaten für andere KI-Modelle nutzten, die später oft zu Konkurrenten wurden, obwohl diese Praxis gegen OpenAIs Nutzungsbedingungen verstoße. Das Offenlegen der rohen Gedankenkette von o1 wäre ein Eldorado an Trainingsdaten für Konkurrenten, um o1-ähnliche “Reasoning”-Modelle zu entwickeln.

Willison glaubt, dass es ein Verlust an Transparenz für die Gemeinschaft ist, dass OpenAI so streng auf die inneren Abläufe von o1 achtet. “Ich bin überhaupt nicht glücklich über diese Richtlinienentscheidung,” schrieb Willison. “Als jemand, der gegen LLMs entwickelt, sind Interpretierbarkeit und Transparenz alles für mich – die Idee, dass ich einen komplexen Prompt ausführen kann und mir wesentliche Details, wie dieser Prompt ausgewertet wurde, verborgen bleiben, fühlt sich wie ein großer Rückschritt an.”