- OpenAI hat einen neuen ChatGPT-Agenten entwickelt, der digitale Aufgaben mittels eines virtuellen Browsers erledigen kann. Der Agent kann Online-Formulare ausfüllen, mit einem Programmierterminal arbeiten und APIs von Diensten wie Google Drive nutzen. Die Veröffentlichung ist Teil von OpenAIs Bemühungen, den Chatbot in ein rentables Produkt zu verwandeln, wobei der Agent als Trend für generative KI-Tools gilt. Pro-Nutzer können zunächst 400 Agenten-Aufforderungen pro Monat verwenden, während andere zahlende Nutzer auf 40 beschränkt sind. Ein integrierter “Watch-Modus” ermöglicht die Überwachung kritischerer Aufgaben, um die Nutzersicherheit zu gewährleisten.
Isa Fulford, Forschungsleiterin für den neuen ChatGPT-Agenten von OpenAI, stand vor der Aufgabe, eine große Bestellung an Cupcakes aufzugeben. Dafür wandte sie sich an das System. „Ich war sehr spezifisch in meinen Anforderungen, und es waren viele Cupcakes“, erzählt sie. Es dauerte fast eine Stunde, doch es war einfacher, als es selbst zu erledigen. OpenAI hat einen neuen Agenten ins Leben gerufen, der mithilfe eines virtuellen Browsers Aufgaben erledigen und herunterladbare Dateien wie PowerPoint-Präsentationen und Excel-Tabellen generieren kann. Obwohl dieser nicht die gesamte Suite an Arbeitsplatzwerkzeugen ersetzt, könnten die Funktionen einige Nutzer von der Abhängigkeit von Microsofts Unternehmenssoftware befreien. Die beiden Unternehmen sind langjährige Partner und verhandeln aktuell über den Zugang zu OpenAI-Modellen.
Einführung des ChatGPT-Agenten
Die Veröffentlichung ist Teil der Bemühungen von OpenAI, seinen fast dreijährigen Chatbot in ein rentables Produkt zu verwandeln. Trotz Millionen von Nutzern ist dies keine leichte Aufgabe, da leistungsstarke KI-Modelle kostenintensiv sind und auch der Bedarf an hochqualifiziertem Personal besteht. In diesem Zusammenhang bezeichnet ein „Agent“ ein KI-Tool, das in der Lage ist, Software von Drittanbietern zu navigieren und Entscheidungen zu treffen, um digitale Aufgaben zu erfüllen. Der Begriff „Agent“ ist derzeit ein Trendwort für Unternehmen, die generative KI-Tools anbieten, besonders solche mit einem Fokus auf Geschäftskunden. „Wir haben versucht, ein Produkt mit vielen geschäftlichen Nutzungsmöglichkeiten zu entwickeln“, erklärt Yash Kumar, leitender Produktmanager des ChatGPT-Agenten. Neben der Dateigenerierung kann der Agent Online-Formulare ausfüllen, ein Programmierterminal nutzen und öffentliche APIs zu Onlinediensten wie Google Drive und SharePoint aufrufen.
Funktionsweise und Einsatzmöglichkeiten
Bereits in früheren Jahren veröffentlichte OpenAI ähnliche Agenten, der neue ChatGPT-Agent kombiniert allerdings Aspekte bestehender Funktionen von OpenAI. „Ich war im Team für tiefgehende Forschung, und Yash war im Operator-Team“, erläutert Fulford. „Wir erkannten, dass die beiden Produkte sehr komplementär sind und entschieden, die Teams zusammenzulegen.“ Der Agent kann zwischen einem visuellen Browser, mit dem er wie der Operator klickt, und einem textbasierten Browser wechseln, der zahlreiche Websites durchsucht, ähnlich der tiefgehenden Forschung. Die Einführung erfolgt zuerst für Pro-, Plus- und Team-Abonnenten. Unternehmens- und Bildungsabonnenten sollen im Sommer Zugang erhalten. Beim Start dürfen Pro-Nutzer monatlich 400 Agenten-Aufforderungen verwenden, während andere zahlende Nutzer auf 40 Aufforderungen pro Monat beschränkt bleiben. Wann dieses Feature für kostenfreie Nutzer zugänglich wird, bleibt unklar.
Fulford verdeutlicht mit ihrer Cupcake-Bestellung, dass das KI-Tool Tests zufolge eine Stunde für Aufgaben benötigen kann, obwohl nicht jede Anfrage derart zeitaufwendig ist. In einer Vorführung nutzte Kumar den Agenten, um Aufgaben von der Planung eines Date-Nights bis zur Erstellung eines Bilanzberichts zu automatisieren. Während die Planung eines Abends nur fünf Minuten beanspruchen könnte, erfordert die Vorbereitung eines aufwendigeren Berichts mehr Zeit. „Man kann beliebig viele Aufgaben parallel erledigen“, sagt Kumar. Durch den geplanten Zugriff auf gespeicherte Daten könnten zukünftige Aufgaben wie das Erstellen von Präsentationen noch einfacher werden, auch wenn diese Funktion bei der ersten Einführung nicht dabei sein wird.
Sicherheit und Kontrolle
Die Kontrolle der Nutzer steht im Fokus, während der Agent Aufgaben automatisiert. „Wir haben eine Liste von Websites, die riskant sind, zu besuchen“, meint Kumar. Ein „Watch-Modus” ist integriert, bei dem Nutzer Aufgaben mit persönlichem Risiko aktiv überwachen sollen, was bereits im Operator-Tool verfügbar war. Eine neue „Wiedergabe“-Funktion könnte Nutzern künftig erlauben, längere Agenten-Aktivitäten zu überprüfen, um deren effizientere Nutzung zu gewährleisten. Experten sehen, dass diese Entwicklung das Nutzerverhalten im Internet grundlegend ändern könnte.