- Wir könnten eine Kommission verdienen, wenn Sie über unsere Links kaufen.
- Dank eines kostenlosen Programms konnte ein unerfahrener Programmierer ein Problem auf GitHub beheben.
- Der SWE-Agent analysiert, navigiert und korrigiert Code automatisch.
- KI-Werkzeuge wie GitHub Copilot helfen Programmierern, effizienter zu arbeiten.
- Viele Unternehmen und Teams entwickeln und testen KI-Agenten zur Softwareentwicklung.
Wenn Sie etwas über unsere Links kaufen, könnten wir eine Kommission verdienen. Obwohl ich kein geübter Programmierer bin, konnte ich dank eines kostenlosen Programms ein hartnäckiges Problem beheben, das durch eine falsch benannte Datei in verschiedenen Code-Repositories auf der Software-Hosting-Seite GitHub verursacht wurde.
Ich richtete den SWE-Agenten auf ein Problem in GitHub und beobachtete fasziniert, wie er den Code analysierte und die mögliche Ursache des Fehlers ermittelte. Er stellte korrekt fest, dass die fehlerhafte Zeile auf den falschen Speicherort einer Datei zeigte, navigierte durch das Projekt, fand die Datei und korrigierte den Code, sodass alles ordnungsgemäß lief. Ein unerfahrener Entwickler wie ich könnte Stunden damit zubringen, solch einen Fehler zu beheben.
Die Macht der KI-gestützten Programmierung
Viele Programmierer setzen bereits KI ein, um Software schneller zu schreiben. GitHub Copilot war das erste prominente Werkzeug, aber viele integrierte Entwicklungsumgebungen (IDEs) vervollständigen inzwischen automatisch Codeblöcke, wenn ein Entwickler mit dem Tippen beginnt. Man kann auch KI-Fragen zu Code stellen oder sich Vorschläge machen lassen, wie man sein Projekt verbessern kann.
Im vergangenen Sommer begannen John Yang und Carlos Jimenez, zwei Princeton-PhD-Studenten, zu diskutieren, was nötig wäre, damit KI zu einem echten Software-Ingenieur wird. Dies führte dazu, dass sie zusammen mit anderen in Princeton Benchmarks entwickelten, um KI-Werkzeuge über eine Vielzahl von Programmieraufgaben zu testen. Nach der Veröffentlichung der Benchmarks im Oktober entwickelte das Team sein eigenes Werkzeug – den SWE-Agenten –, um diese Aufgaben zu meistern.
Von der Vision zur Realität
Der SWE-Agent (kurz für „software engineering“) gehört zu einer Reihe von wesentlich leistungsfähigeren KI-Coding-Programmen, die über das bloße Schreiben von Code hinausgehen. Sie fungieren als sogenannte Software-Agenten, die die notwendigen Werkzeuge nutzen, um Software zu verwalten, zu debuggen und zu organisieren. Ein Startup namens Devin ging im März mit einem solchen Tool viral.
Ofir Press, ein Mitglied des Princeton-Teams, meint, dass SWE-Bench OpenAI dabei helfen könnte, die Leistung und Zuverlässigkeit von Software-Agenten zu testen. Er ist der Meinung, dass OpenAI in naher Zukunft einen Software-Agenten veröffentlichen könnte. OpenAI gab dazu keinen Kommentar, aber eine Quelle, die mit den Aktivitäten des Unternehmens vertraut ist, bestätigte, dass OpenAI definitiv an Coding-Agenten arbeitet.
Genau wie GitHub Copilot gezeigt hat, wie KI das Schreiben von Code automatisieren kann, könnten Werkzeuge wie der SWE-Agent beweisen, dass KI-Agenten zuverlässig arbeiten können, angefangen bei der Erstellung und Wartung von Code.
Die Zukunft der Software-Entwicklung
Zahlreiche Unternehmen testen derzeit Agenten für die Software-Entwicklung. An der Spitze der SWE-Bench-Rangliste, die die Leistung verschiedener Codieragenten bei verschiedenen Aufgaben misst, steht ein Agent eines Startups, gefolgt von einem Open-Source-Eintrag eines Teams der National University of Singapore. Auch große Unternehmen mischen mit. Ein Software-Schreibwerkzeug namens Q ist ein weiterer Spitzenreiter auf SWE-Bench.
„Software-Entwicklung umfasst weit mehr als nur das Tippen,“ sagt Deepak Singh, Vizepräsident für Software-Entwicklung bei Amazon Web Services (AWS). Er fügt hinzu, dass AWS den Agenten genutzt hat, um gesamte Software-Stacks von einer Programmiersprache in eine andere zu übersetzen. „Es ist, als hätte man einen wirklich intelligenten Ingenieur neben sich, der eine Anwendung mit einem zusammen schreibt und baut,“ sagt Singh. „Ich denke, das ist ziemlich transformativ.“
Ein Team bei OpenAI hat kürzlich dem Princeton-Team geholfen, einen Benchmark zur Messung der Zuverlässigkeit und Wirksamkeit von Werkzeugen wie dem SWE-Agent zu verbessern, was darauf hindeutet, dass das Unternehmen möglicherweise auch Agenten für das Schreiben von Code oder andere Aufgaben am Computer verfeinert.
Singh sagt, dass bereits viele Kunden komplexe Backend-Anwendungen mit Q erstellen. Meine eigenen Experimente mit SWE-Bench deuten darauf hin, dass jeder, der programmiert, bald Agenten nutzen möchte, um seine Programmierfähigkeiten zu verbessern oder Gefahr läuft, den Anschluss zu verlieren.