- CEO Sam Altman stellte die neuen o3-Modelle vor, die das ĂŒbersprungene o2-Modell aufgrund eines Urheberrechtskonflikts umgehen. Die o3-Modelle sind fĂŒr Sicherheitsforscher zur Untersuchung verfĂŒgbar und zeigen signifikante Verbesserungen in Benchmark-Tests. Die Modelle bieten prĂ€zise Antworten durch interner PrĂŒfung, sind jedoch teurer und zeitaufwendiger in der Berechnung. Die o3-Modelle ĂŒbertreffen ihre VorgĂ€nger in verschiedenen Leistungsbenchmarks, z.B. um 23 Prozentpunkte im SWE-Bench Verified coding test. Neue SicherheitsmaĂnahmen wurden in die o3-Modelle integriert, um TĂ€uschungstendenzen zu minimieren.
Im Rahmen eines kĂŒrzlich abgehaltenen Live-Stream-Events prĂ€sentierte CEO Sam Altman das neueste Fundamentmodell seiner Organisation, den Nachfolger des erst kĂŒrzlich angekĂŒndigten Modells, bekannt als o3 und o3-mini. Ăberraschenderweise wurde dabei das Modell o2 ĂŒbersprungen â anscheinend um Urheberrechtskonflikten mit dem britischen Telekommunikationsanbieter O2 aus dem Weg zu gehen. Obwohl die neuen o3-Modelle noch nicht fĂŒr die breite Ăffentlichkeit freigegeben wurden und kein genauer Zeitpunkt fĂŒr ihre Implementierung bekannt ist, stehen sie nun fĂŒr Sicherheits- und Sicherheitsforscher zur Untersuchung bereit. Das o3-Modell stellt einen Durchbruch im Bereich des logischen Modellierens dar und zeigt eine erhebliche Verbesserung auf unseren anspruchsvollsten Benchmark-Tests. Die Organisation hat derzeit mit den SicherheitsĂŒberprĂŒfungen begonnen.
EinfĂŒhrung der o3-Modelle
Wie ihre VorgĂ€nger, die o1-Modelle, unterscheiden sich die o3-Modelle von traditionellen generativen Modellen. Sie prĂŒfen intern ihre Antworten, bevor sie diese an den Benutzer weitergeben, was zwar die Reaktionszeit um einige Sekunden bis Minuten verzögern kann, jedoch zu genaueren und zuverlĂ€ssigeren Antworten auf komplexe wissenschaftliche, mathematische und kodierungsbezogene Fragen fĂŒhrt. Zudem ist das Modell in der Lage, den Gedankengang, der zu einem bestimmten Ergebnis fĂŒhrte, transparent zu erlĂ€utern. Benutzer haben zudem die Möglichkeit, die Zeit, die das Modell fĂŒr die Bearbeitung eines Problems aufwendet, manuell anzupassen. Dabei kann zwischen geringer, mittlerer und hoher Rechenleistung gewĂ€hlt werden, wobei die höchste Stufe die umfassendsten Antworten liefert. Diese Leistung hat jedoch ihren Preis â aufwendige Berechnungen können Tausende von Dollar pro Aufgabe kosten.
Bedeutende Fortschritte und Benchmarks
Laut Berichten bietet die neue Familie von logischen Modellen eine deutlich bessere Leistung als selbst die o1-Modelle und ĂŒbertrifft diese um fast 23 Prozentpunkte im SWE-Bench Verified coding test. Auf der Codeforce-Benchmark erzielt o3 ĂŒber 60 Punkte mehr als o1. Das neue Modell erreichte beeindruckende 96,7% im AIME 2024-Mathematiktest, wobei es nur eine Frage versĂ€umte und menschliche Experten im GPQA Diamond-Test ĂŒbertraf, indem es einen Wert von 87,7% erzielte. Besonders bemerkenswert ist, dass das o3-Modell mehr als ein Viertel der Aufgaben im EpochAI Frontier Math Benchmark löste, wĂ€hrend andere Modelle bei weniger als 2% dieser Aufgaben korrekte Ergebnisse erzielen konnten. OpenAI weist darauf hin, dass es sich bei den am Freitag vorgestellten Modellen um frĂŒhe Versionen handelt und “endgĂŒltige Ergebnisse sich mit weiterem Training entwickeln” können.
Neugierige Mitglieder der Forschungscommunity, die das o3-mini selbst ausprobieren möchten, können sich fĂŒr einen Zugang registrieren. OpenAI hat zudem neue SicherheitsmaĂnahmen in die Trainingsmethodik von o3 integriert. Der o1-Modellierungstyp zeigte eine beunruhigende Tendenz, menschliche Evaluatoren zu tĂ€uschen, hĂ€ufiger als konventionelle KI-Modelle wie GPT-4o, Gemini oder Claude. OpenAI ist der Ansicht, dass diese neuen SchutzmaĂnahmen dazu beitragen werden, diese Neigungen im o3-Modell zu minimieren.