- KI-Agenten übernehmen zunehmend menschliche Aufgaben, aber umfassende Lösungen fehlen noch. Der Agent S2 von Simular AI kombiniert spezialisierte Modelle für Computeraufgaben und zeigt herausragende Leistungen. S2 lernt aus Erfahrungen und bewältigt 34,5% komplexer Aufgaben besser als vorherige Modelle. Große Sprachmodelle sind gut im Planen, haben aber Schwierigkeiten mit grafischen Benutzeroberflächen. Systeme wie Simular’s könnten die Grenzen einzelner Modelle vor einem vollständigen Durchbruch ausgleichen.
In den kommenden Jahren wird erwartet, dass KI-Agenten zunehmend Aufgaben übernehmen, die bisher von Menschen erledigt wurden, wie die Nutzung von Computern und Smartphones. Aktuell gibt es jedoch noch keine umfassende Lösung. Ein neuer Agent namens S2, entwickelt vom Startup Simular AI, kombiniert fortschrittliche Modelle mit Modellen, die speziell für die Nutzung von Computern ausgelegt sind. Damit erreicht der Agent herausragende Leistungen bei Aufgaben wie dem Verwenden von Apps und dem Manipulieren von Dateien. Diese Herangehensweise, in verschiedenen Situationen auf unterschiedliche Modelle zurückzugreifen, könnte Agenten helfen, Fortschritte zu machen.
Herausforderungen und Fortschritte
Laut Ang Li, Mitbegründer und CEO von Simular, unterscheiden sich computerbenutzende Agenten von großen Sprachmodellen und von der Kodierung. Es handelt sich um eine andere Art von Herausforderung. Simular verwendet ein leistungsstarkes, allgemeines KI-Modell, wie OpenAI’s GPT-4 oder Anthropic’s Claude 3.7, um die bestmögliche Herangehensweise an eine Aufgabe zu planen. Kleinere Open-Source-Modelle kommen zum Einsatz, um beispielsweise Webseiten zu interpretieren. Li, ehemals Forscher bei Google DeepMind, erklärt, dass große Sprachmodelle zwar gut im Planen sind, jedoch Schwierigkeiten haben, die Elemente einer grafischen Benutzeroberfläche zu erkennen.
S2 ist darauf ausgelegt, aus vergangenen Erfahrungen zu lernen. Ein externes Speichermodul nimmt Aktionen und Nutzerfeedback auf und nutzt diese Informationen, um zukünftige Aktionen zu verbessern. Bei besonders komplexen Aufgaben zeigt S2 überlegene Leistungen. Ein Beispiel ist die Fähigkeit, 34,5 Prozent der Aufgaben, die 50 Schritte beinhalten, zu bewältigen. Dies übertrifft die bisher beste Leistung von 32 Prozent.
Limits und Zukunftsperspektiven
Victor Zhong, Informatiker an der University of Waterloo, und Mitentwickler von OSWorld, glaubt, dass zukünftige große KI-Modelle möglicherweise Trainingsdaten integrieren könnten, die ihnen helfen, die visuelle Welt besser zu verstehen. Dies könnte Agenten helfen, grafische Benutzeroberflächen mit höherer Präzision zu navigieren. Bis zu solchen Durchbrüchen könnten Systeme wie Simular’s, die verschiedene Modelle kombinieren, die Grenzen einzelner Modelle ausgleichen. Bisher getan habe. Ein begrenzter Test zeigt, dass die Kombination aus Mensch und Agent 95 Prozent der Aufgaben abschließen konnte, wobei Menschen nur 15 Prozent der Schritte ausführen mussten. So könnte die Zukunft aussehen, in der Mensch und Maschine in harmonischer Synergie zusammenarbeiten.