- Google plant, einen KI-Agenten namens Jarvis im Chrome-Browser einzuführen. Jarvis soll komplexe Aufgaben wie Webseitenbesuche und Zahlungen autonom ausführen können. Jarvis könnte eine bedeutende Erweiterung der Funktionalitäten des Sprachmodells Gemini darstellen. Andere Unternehmen wie Anthropic und Swarm Framework entwickeln ebenfalls KI-Agenten. Diese Entwicklungen zeigen das Potenzial von KI-Agenten für zukünftige Technologien.
Mit der stetig fortschreitenden Entwicklung von generativer KI erobert ein neues Konzept die Technologiebranche: KI-Agenten. Google könnte bald einen eigenen Agenten im Rahmen seines kommenden großen Sprachmodells, bekannt als Gemini, vorstellen. Unter dem geheimnisvollen Namen Projekt Jarvis plant Google einen KI-Agenten, der direkt im Chrome-Browser agiert. Diese Innovation könnte die größte Veränderung seit Einführung des Browsers im Jahr 2008 darstellen. Jarvis soll in der Lage sein, alltägliche Aufgaben nach einfachen Befehlen auszuführen, mit einer Autonomie, die bisher nicht möglich war.
Gemini: Die nächste Generation
Bereits jetzt zeigt sich die Leistungsfähigkeit von Gemini im aktuellen Modell 1.5 Pro, das als Einkaufs- und Reisebegleiter agiert. Mit der Weiterentwicklung wird erwartet, dass Jarvis komplexere Aufgaben übernimmt, etwa das Besuchen von Webseiten, das Ausfüllen von Formularen oder sogar das Durchführen von Zahlungen. Ein solches Potenzial bedeutet eine erhebliche Erweiterung dessen, was derzeit möglich ist. Man könnte etwa eine Aufforderung formulieren: „Plane mir eine Reise im Dezember für 2.000 Dollar.“ Im jetzigen Modell könnte dies lediglich eine grobe Planung sein, doch mit Jarvis wäre es möglich, Flüge und Hotels direkt zu buchen und die Details per E-Mail zu übermitteln.
Das Potenzial der KI-Agenten
Interessanterweise erinnert der Projektname Jarvis an den berühmten KI-Assistenten von Tony Stark in der Welt von Science-Fiction. Obwohl der endgültige Name noch unbekannt ist, scheint die Bezeichnung passend zu sein, während Google die Fähigkeiten seines Modells weiter ausbaut. Seit Mai präsentiert Google die Fortschritte der KI-Agenten, die die Verarbeitung von Sprach- und Videoinhalten erheblich verbessern und schnellere Antwortzeiten in Gesprächen ermöglichen werden. Man spekuliert, dass dieses Konzept Teil des nächsten Sprachmodells, Gemini 2.0, sein könnte, dessen Veröffentlichung vielleicht bereits im Dezember angekündigt wird. Wie weit verbreitet es sein wird, bleibt offen.
Globale Technologie-Trends
Während Google weiter an seinem KI-Agenten arbeitet, sind andere Unternehmen nicht weit hinterher. Anthropic hat kürzlich seinen Computer Use-Agenten vorgestellt, der eigenständig als Benutzer des Geräts agiert. Diese Funktion befindet sich momentan in der Betaphase. Parallel dazu entwickelt Swarm Framework ein System von Agenten, die gemeinsam Aufgaben bewältigen. Obwohl diese Entwicklungen noch in der experimentellen Phase sind, zeigen sie das gewaltige Potenzial, das KI-Agenten für die Zukunft bereithalten.