Neues GPT-5: Revolutioniert es Programmierung oder enttäuscht?

OpenAI hat GPT-5 vorgestellt, das hochwertigen Code generieren und automatische Softwareprozesse durchführen soll. Einige Entwickler sehen GPT-5 als kostengünstige, aber weniger genaue Alternative zu anderen Modellen wie Anthropic’s Opus 4.1. Kritiker bemängeln, dass GPT-5 übermäßig ausführlichen und unnötigen Code erzeugen kann. Positive Erfahrungen berichten von der Fähigkeit, komplexe Programmieraufgaben effektiv zu bewältigen, trotz gelegentlicher Fehler wie das “Halluzinieren” von URLs. Die Meinungen über die Codierungsfähigkeiten von GPT-5 sind geteilt, und es wird oft anderen Modellen der Vorzug gegeben.

Letzte Woche stellte OpenAI seinen neuesten Meilenstein vor, GPT-5, und erklärte den anspruchsvollen Softwareentwicklern, dass dieser Modelltyp dafür prädestiniert ist, hochqualitativen Code zu generieren und automatische Softwareprozesse durchzuführen. Auch wenn sie es nicht offensichtlich betonten, schien es für viele wie ein gezielter Angriff auf die dominierenden Konkurrenten in der KI-unterstützten Programmierung. Doch die Meinungen der Entwickler über GPT-5 sind geteilt. Während es bei der technischen Logik und der Planung von Codierungsarbeiten glänzt, gibt es Stimmen, die behaupten, dass Anthropic’s neueste Modelle noch immer besseren Code erzeugen.

Kontroversen rund um GPT-5

Abhängig von den Versionen des GPT-5—sei es mit niedriger, mittlerer oder hoher Ausdruckskraft—neigt das Modell dazu, manchmal übermäßig ausführliche oder unnötige Zeilen Code zu erzeugen. Dies führte bereits zu Kritik an der Art und Weise, wie OpenAI die Leistungsfähigkeit von GPT-5 bewertet hat, da einige der benutzten Benchmarks als irreführend interpretiert werden. Eine Forschungsinstitution bezeichnete die Veröffentlichungen zu GPT-5 sogar als „Diagrammverbrechen“. Dennoch hebt sich GPT-5 in einem Aspekt deutlich ab: Es stellt eine kostengünstigere Alternative im Vergleich zu konkurrierenden Modellen dar.

Ein Doktorand der Informatik an der Princeton Universität, Sayash Kapoor, betonte, dass GPT-5 oft von anderen Modellen in Tests übertroffen wird, es jedoch besonders günstig bleibt. Gemäß seinen Berechnungen kostet das Testen von GPT-5 mit mittlerer Ausdruckskraft etwa $30, während die gleichen Tests mit Anthropic’s Opus 4.1 rund $400 verschlingen. Kapoor’s Analysen zeigen jedoch auch, dass GPT-5 in puncto Genauigkeit hinter anderen Modellen zurückbleibt.

Praktische Erfahrungen und Einschränkungen

Einige Entwickler berichten dennoch von positiven Erfahrungen mit GPT-5. Jenny Wang, Ingenieurin und Entwicklerin eines persönlichen Stylisten-Agenten, betont die Fähigkeit des Modells, komplexe Programmieraufgaben in einem einzigen Anlauf zu bewältigen. Ein von ihr durchgeführter Test, bei dem sie GPT-5 beauftragte, Code für die Presse-Seite ihrer Firmenwebsite mit spezifischen Designelementen zu generieren, erwies sich als fulminant. Doch auch hier traten Fehler auf: GPT-5 hatte URLs „halluziniert“.

Ein anderer Entwickler, der anonym bleiben möchte, lobte das Modell für seine Fähigkeit, tiefgehende technische Probleme zu lösen. Für sein Hobbyprojekt benötigte er eine Programmstruktur, die Sicherheitsaspekte mitberücksichtigt, und GPT-5 lieferte sinnvolle Ansätze. Einige große Firmenpartner von OpenAI haben die Codierungsfähigkeiten des Modells öffentlich befürwortet.

Kritik und Zukunftserwartungen

Gleichwohl, bereits kurz nach der Veröffentlichung häufen sich kritische Stimmen einiger Entwickler, die besagen, dass die Codierungsfähigkeiten von GPT-5 nicht den gewohnten Standards eine modernen, hoch entwickelten Modells entsprechen. Kieran Klassen, ein Entwickler, der eine KI-gestützte E-Mail-Assistenten entwickelt, meinte sogar, dass GPT-5 rückständig erscheine und seine Fähigkeiten ihn an ältere Modelle erinnerten.

Amir Salihefendić, Gründer von Doist, äußerte, dass er die Nutzung von GPT-5 in Cursor als enttäuschend empfand, besonders in Bezug auf die Codierungsleistung. Auf sozialen Medien wie X loben jedoch andere Nutzer GPT-5 als herausragendes Kommunikationsmodell. Entwickler wie Mckay Wrigley hingegen äußern, dass sie für Codierungsprozesse weiterhin andere Modelle wie Claude Code + Opus bevorzugen.

Es gibt Stimmen, die sagen, dass GPT-5 zu „erschöpfend“ sei—gelegentlich hilfreich, aber oft ermüdend in seiner Langatmigkeit. Wang, die mit dem Frontend-Coding-Projekt insgesamt zufrieden war, kommentiert, dass das Modell zu Redundanz neige und klarere, prägnantere Lösungen finden könnte. Die Verstellbarkeit der Ausdruckskraft von GPT-5 erlaubt es jedoch, dies an individuelle Bedürfnisse und Budgets anzupassen, was möglicherweise weiteren Frust verhindern könnte.