Menschliche Trainer und CriticGPT: Die Zukunft von ChatGPT enthüllt

Ein Heer von menschlichen Trainern hat maßgeblich zum Erfolg von ChatGPT beigetragen.
Die Technik des Reinforcement Learning mit menschlichem Feedback (RLHF) hilft, KI-Modelle kohärenter und weniger anstößig zu machen.
OpenAI hat das Modell CriticGPT entwickelt, das Fehler findet, die menschliche Trainer übersehen könnten, besonders bei der Bewertung von Code.
Die Integration von CriticGPT in das RLHF-Stack könnte die Genauigkeit und Intelligenz von KI-Modellen weiter verbessern.
Langfristig könnte die Technik dazu beitragen, vertrauenswürdigere und an menschlichen Werten orientierte KI-Modelle zu trainieren.

Eines der wesentlichen Elemente, das ChatGPT zu einem durchschlagenden Erfolg verholfen hat, ist ein Heer von menschlichen Trainern. Diese geben dem Modell hinter dem Bot Anleitungen, was als gute und schlechte Ausgabe gilt. Nun könnte das Hinzufügen von noch mehr KI zur Unterstützung dieser menschlichen Trainer dazu beitragen, dass KI-Helfer intelligenter und zuverlässiger werden. In der Entwicklung von ChatGPT hat OpenAI die Nutzung von Reinforcement Learning mit menschlichem Feedback, oder RLHF, vorangetrieben. Diese Technik verwendet Eingaben von menschlichen Testern, um ein KI-Modell zu verfeinern, sodass dessen Ausgabe kohärenter, weniger anstößig und genauer beurteilt wird.

Die Bedeutung des Feedbacks

Der Input, den die Trainer geben, fließt in einen Algorithmus ein, der das Verhalten des Modells steuert. Diese Technik hat sich als entscheidend erwiesen, sowohl um Chatbots zuverlässiger und nützlicher zu machen als auch um deren Fehlverhalten zu verhindern. „RLHF funktioniert sehr gut, hat aber einige Schlüssellimitierungen“, sagt Nat McAleese, ein Forscher bei OpenAI, der an der neuen Arbeit beteiligt ist. Eines der Probleme liegt darin, dass menschliches Feedback inkonsistent sein kann. Ein weiteres ist die Schwierigkeit, dass selbst erfahrene Menschen extrem komplexe Ausgaben, wie anspruchsvollen Softwarecode, bewerten können.

OpenAI hat ein neues Modell entwickelt, indem es ihr leistungsstärkstes Angebot, GPT-4, verfeinert hat, um menschliche Trainer zu unterstützen, die mit der Bewertung von Code beauftragt sind. Das Unternehmen stellte fest, dass das neue Modell, genannt CriticGPT, Fehler finden konnte, die Menschen übersehen hatten. Menschliche Richter fanden seine Kritiken zu Code 63 Prozent der Zeit besser. OpenAI wird in die Zukunft blicken und erwägen, den Ansatz auf Bereiche jenseits von Code auszudehnen.

Erweiterte Anwendungen

„Wir beginnen damit, diese Technik in unserem RLHF-Chat-Stack zu integrieren“, sagt McAleese. Zwar merkt er an, dass der Ansatz nicht perfekt sei und auch CriticGPT Fehler machen könne, indem es Halluzinationen produziert. Doch könnte diese Technik dazu beitragen, OpenAIs Modelle sowie Werkzeuge wie ChatGPT durch die Reduzierung von Fehlern im menschlichen Training genauer zu machen. Weiterhin könnte sich dies als entscheidend erweisen, um KI-Modelle viel intelligenter zu machen, da es Menschen ermöglichen könnte, eine KI zu trainieren, die ihre eigenen Fähigkeiten übertrifft. „Und da die Modelle immer besser werden, vermuten wir, dass die Menschen mehr Hilfe benötigen werden“, fügt McAleese hinzu.

Die neue Technik ist eine von vielen, die derzeit entwickelt werden, um große Sprachmodelle zu verbessern und mehr Fähigkeiten aus ihnen herauszuholen. Dies ist auch Teil eines Bestrebens, sicherzustellen, dass sich KI akzeptabel verhält, selbst wenn sie leistungsfähiger wird. Erst vor wenigen Wochen hat Anthropic, ein Konkurrent von OpenAI, der von Ex-OpenAI-Mitarbeitern gegründet wurde, die Einführung seines eigenen Chatbots Claude bekannt gegeben. Dies erlangte Aufmerksamkeit dank Verbesserungen im Trainingsregime des Modells und den Daten, mit denen es gefüttert wurde.

Langfristige Auswirkungen

Die neue Technik könnte OpenAI dabei helfen, immer leistungsfähigere KI-Modelle zu trainieren, während sie gleichzeitig sicherstellt, dass deren Ausgaben vertrauenswürdiger und mehr mit menschlichen Werten übereinstimmend sind. Dies gilt insbesondere, falls es dem Unternehmen gelingt, diese Technik auf mehr Bereiche als nur den Codeeinsatz auszuweiten. OpenAI hat zudem angekündigt, dass es sein nächstes großes KI-Modell trainiert und ernsthaft daran arbeitet, sicherzustellen, dass es sich korrekt verhält.

Diese Weiterentwicklungen folgen einer intensiven Phase, in der die langfristigen Risiken der KI bewertet werden. Die Gruppe, die sich dieser Aufgabe widmet, wurde von Ilya Sutskever, einem Mitgründer des Unternehmens und ehemaligen Vorstandsmitglied, koordiniert. Sutskever sorgte kurzfristig für Aufruhr, als er CEO Sam Altman kurzzeitig verdrängte, bevor er dazu beitrug, Altman wieder in seine Position zurückzubringen. Einige Mitglieder dieses Teams haben seitdem das Unternehmen verlassen, während es eiligst daran arbeitet, mächtige KI-Algorithmen zu entwickeln und zu kommerzialisieren.