- Durchbruch durch Vergrößerung der Modelle und neuer KI-Ansatz ohne drastische Modellgrößerung.
- OpenAI o1 ist fähig, Probleme schrittweise und logisch zu lösen, ähnlich einem menschlichen Denkprozess.
- Neues Modell Strawberries übertrifft GPT-4o bei komplexen Aufgaben und wird neben GPT-5 weiterentwickelt.
- OpenAI o1 verwendet Verstärkungslernen, um durch positives und negatives Feedback den Denkprozess zu verbessern.
- Das Modell zeigt signifikante Verbesserungen in Bereichen wie Mathematik, Physik und Biologie, ist jedoch langsamer als GPT-4o.
Im letzten Jahr gelang ein bedeutender Durchbruch durch die massive Vergrößerung der Modelle, was die KI zu neuen Höhen führte. Heute verkündete das Unternehmen eine Innovation, die einen neuen Ansatz signalisiert—ein Modell, das logisch durch viele schwierige Probleme „denken“ kann und dabei deutlich intelligenter ist als bestehende KI-Modelle, ohne eine drastische Erhöhung der Modellgröße. Das neue Modell, genannt OpenAI o1, kann Probleme lösen, die herkömmliche KI-Modelle, einschließlich OpenAI’s leistungsfähigstem Modell, überfordern. n
Die neue Denkweise der KI
Anstatt eine Antwort in einem Schritt zu produzieren, wie es ein großes Sprachmodell normalerweise tut, geht OpenAI o1 das Problem Schritt für Schritt durch, ähnlich wie ein Mensch laut darüber nachdenkt, bevor er zur richtigen Lösung kommt. „Dies ist das, was wir als das neue Paradigma in diesen Modellen betrachten“, erklärte der Chief Technology Officer von OpenAI gegenüber WIRED. „Es ist viel besser darin, äußerst komplexe Denkaufgaben zu bewältigen.“ Das neue Modell, das intern Strawberries genannt wurde, ist kein Nachfolger von GPT-4o, sondern eine Ergänzung, so das Unternehmen. n
Murati erwähnt, dass OpenAI derzeit an seinem nächsten Hauptmodell, GPT-5, arbeitet, das erheblich größer als sein Vorgänger sein wird. Doch während das Unternehmen weiterhin glaubt, dass größere Maßstäbe neue Fähigkeiten aus der KI herauskitzeln werden, wird GPT-5 wahrscheinlich auch die heute eingeführte Denk-Technologie beinhalten. „Es gibt zwei Paradigmen“, sagt Murati. „Das Skalierungsparadigma und dieses neue Paradigma. Wir erwarten, dass wir sie zusammenführen werden.“ n
Verbesserte Trainingsmethoden
Große Sprachmodelle erzeugen ihre Antworten aus riesigen neuronalen Netzwerken, die mit einer Unmenge an Trainingsdaten gefüttert werden. Sie können bemerkenswerte sprachliche und logische Fähigkeiten zeigen, haben aber traditionell Schwierigkeiten mit scheinbar einfachen Problemen wie grundlegenden mathematischen Fragen, die logisches Denken erfordern. Murati sagt, OpenAI o1 nutzt Verstärkungslernen, bei dem ein Modell positives Feedback erhält, wenn es richtige Antworten liefert, und negatives Feedback, wenn es falsch liegt, um so seinen Denkprozess zu verbessern. „Das Modell schärft sein Denken und verfeinert die Strategien, die es einsetzt, um zur richtigen Antwort zu gelangen“, sagt sie.
Diese Technik hat Computern bereits ermöglicht, komplexe Aufgaben zu bewältigen und nützliche Tätigkeiten auszuführen. Sie ist auch ein Schlüsselelement dafür, ein großes Sprachmodell in einen nützlichen und gut erzogenen Chatbot zu verwandeln. Mark Chen, Vizepräsident der Forschung bei OpenAI, demonstrierte gegenüber WIRED das neue Modell, indem er es mehrere Probleme lösen ließ, die das vorherige Modell, GPT-4o, nicht bewältigen konnte. Darunter war eine komplexe Chemiefrage sowie folgendes schwer zu fassendes mathematisches Rätsel: „Eine Prinzessin ist genauso alt wie der Prinz sein wird, wenn die Prinzessin doppelt so alt ist wie der Prinz war, als die Prinzessin’s Alter die Hälfte der Summe ihres derzeitigen Alters betrug. Wie alt sind der Prinz und die Prinzessin?“ (Die richtige Antwort ist: Der Prinz ist 30 Jahre alt und die Prinzessin 40 Jahre.)
Ein Schritt nach vorn in der KI-Entwicklung
Chen sagt: „Das [neue] Modell lernt, für sich selbst zu denken, anstatt nur zu versuchen, die Denkweise von Menschen nachzuahmen, wie es ein konventionelles Sprachmodell tut.“ Laut OpenAI zeigt das neue Modell deutlich bessere Leistungen bei einer Vielzahl von Aufgaben, einschließlich solchen in den Bereichen Kodierung, Mathematik, Physik, Biologie und Chemie. Bei der American Invitational Mathematics Examination (AIME), einem Test für Mathematikstudenten, löste GPT-4o im Durchschnitt 12 Prozent der Aufgaben richtig, während o1 laut dem Unternehmen 83 Prozent der Aufgaben korrekt löste.
Das neue Modell ist langsamer als GPT-4o, und OpenAI gibt an, dass es nicht immer bessere Leistungen erbringt – teilweise, weil es im Gegensatz zu GPT-4o nicht das Web durchsuchen kann und nicht multimodal ist, also keine Bilder oder Audiosignale verarbeiten kann.
Die Verbesserung der Denkfähigkeiten von großen Sprachmodellen ist seit einiger Zeit ein heißes Thema in Forschungskreisen. Konkurrenten verfolgen ähnliche Forschungslinien. Gespräche bei Google und Mechanismen wie AlphaProof für die Lösung komplizierter mathematischer Probleme zeigen ähnliche Fortschritte. Laut Mark Chen hat OpenAI es geschafft, ein Denksystem zu entwickeln, das viel allgemeiner ist. „Wir glauben, dass wir damit einige Durchbrüche erreicht haben; es ist ein Teil unseres Vorsprungs,“ sagt Chen.