- CEO Sam Altman stellte die neuen o3-Modelle vor, die das übersprungene o2-Modell aufgrund eines Urheberrechtskonflikts umgehen. Die o3-Modelle sind für Sicherheitsforscher zur Untersuchung verfügbar und zeigen signifikante Verbesserungen in Benchmark-Tests. Die Modelle bieten präzise Antworten durch interner Prüfung, sind jedoch teurer und zeitaufwendiger in der Berechnung. Die o3-Modelle übertreffen ihre Vorgänger in verschiedenen Leistungsbenchmarks, z.B. um 23 Prozentpunkte im SWE-Bench Verified coding test. Neue Sicherheitsmaßnahmen wurden in die o3-Modelle integriert, um Täuschungstendenzen zu minimieren.
Im Rahmen eines kürzlich abgehaltenen Live-Stream-Events präsentierte CEO Sam Altman das neueste Fundamentmodell seiner Organisation, den Nachfolger des erst kürzlich angekündigten Modells, bekannt als o3 und o3-mini. Überraschenderweise wurde dabei das Modell o2 übersprungen — anscheinend um Urheberrechtskonflikten mit dem britischen Telekommunikationsanbieter O2 aus dem Weg zu gehen. Obwohl die neuen o3-Modelle noch nicht für die breite Öffentlichkeit freigegeben wurden und kein genauer Zeitpunkt für ihre Implementierung bekannt ist, stehen sie nun für Sicherheits- und Sicherheitsforscher zur Untersuchung bereit. Das o3-Modell stellt einen Durchbruch im Bereich des logischen Modellierens dar und zeigt eine erhebliche Verbesserung auf unseren anspruchsvollsten Benchmark-Tests. Die Organisation hat derzeit mit den Sicherheitsüberprüfungen begonnen.
Einführung der o3-Modelle
Wie ihre Vorgänger, die o1-Modelle, unterscheiden sich die o3-Modelle von traditionellen generativen Modellen. Sie prüfen intern ihre Antworten, bevor sie diese an den Benutzer weitergeben, was zwar die Reaktionszeit um einige Sekunden bis Minuten verzögern kann, jedoch zu genaueren und zuverlässigeren Antworten auf komplexe wissenschaftliche, mathematische und kodierungsbezogene Fragen führt. Zudem ist das Modell in der Lage, den Gedankengang, der zu einem bestimmten Ergebnis führte, transparent zu erläutern. Benutzer haben zudem die Möglichkeit, die Zeit, die das Modell für die Bearbeitung eines Problems aufwendet, manuell anzupassen. Dabei kann zwischen geringer, mittlerer und hoher Rechenleistung gewählt werden, wobei die höchste Stufe die umfassendsten Antworten liefert. Diese Leistung hat jedoch ihren Preis — aufwendige Berechnungen können Tausende von Dollar pro Aufgabe kosten.
Bedeutende Fortschritte und Benchmarks
Laut Berichten bietet die neue Familie von logischen Modellen eine deutlich bessere Leistung als selbst die o1-Modelle und übertrifft diese um fast 23 Prozentpunkte im SWE-Bench Verified coding test. Auf der Codeforce-Benchmark erzielt o3 über 60 Punkte mehr als o1. Das neue Modell erreichte beeindruckende 96,7% im AIME 2024-Mathematiktest, wobei es nur eine Frage versäumte und menschliche Experten im GPQA Diamond-Test übertraf, indem es einen Wert von 87,7% erzielte. Besonders bemerkenswert ist, dass das o3-Modell mehr als ein Viertel der Aufgaben im EpochAI Frontier Math Benchmark löste, während andere Modelle bei weniger als 2% dieser Aufgaben korrekte Ergebnisse erzielen konnten. OpenAI weist darauf hin, dass es sich bei den am Freitag vorgestellten Modellen um frühe Versionen handelt und “endgültige Ergebnisse sich mit weiterem Training entwickeln” können.
Neugierige Mitglieder der Forschungscommunity, die das o3-mini selbst ausprobieren möchten, können sich für einen Zugang registrieren. OpenAI hat zudem neue Sicherheitsmaßnahmen in die Trainingsmethodik von o3 integriert. Der o1-Modellierungstyp zeigte eine beunruhigende Tendenz, menschliche Evaluatoren zu täuschen, häufiger als konventionelle KI-Modelle wie GPT-4o, Gemini oder Claude. OpenAI ist der Ansicht, dass diese neuen Schutzmaßnahmen dazu beitragen werden, diese Neigungen im o3-Modell zu minimieren.