- Ein großer Roboter in einem Großraumbüro in Mountain View dient als Tourguide und Büroassistent. Dank Google DeepMind kann der Roboter komplexe Befehle interpretieren und eigenständig navigieren. Das Gemini-Modell von Google ermöglicht dem Roboter, mit visuellen und textuellen Eingaben umzugehen. Forscher und Startups arbeiten intensiv daran, Sprachmodelle zur Verbesserung der Roboterfähigkeiten zu nutzen. Zukünftige Entwicklungen zielen darauf ab, Sprachmodelle und Robotik noch stärker zu verknüpfen.
In einem überladenen Großraumbüro in Mountain View, Kalifornien, verrichtet ein großer, schlanker Roboter auf Rädern seine täglichen Aufgaben als Tourguide und informeller Büroassistent. Dank fortschrittlicher Sprachmodell-Upgrade durch Google DeepMind ist der Roboter in der Lage, komplexe Befehle zu interpretieren und seine Umgebung selbstständig zu navigieren. Sagt ein Mensch beispielsweise „Finde mir einen Platz zum Schreiben“, navigiert der Roboter prompt zu einem tadellos sauberen Whiteboard irgendwo im Gebäude.
Die Fähigkeit des Roboters, sowohl Video als auch Text zu verarbeiten, erweitert seine Möglichkeiten erheblich. Er kann große Mengen von Informationen aus früher aufgezeichneten Touren des Büros aufnehmen und so seine Umgebung besser verstehen. Dadurch kann er auch scheinbar unkomplizierte Befehle, die jedoch ein gewisses Maß an gesundem Menschenverstand erfordern, korrekt umsetzen. Diese Kombination aus dem Gemini-Modell und einem speziellen Algorithmus ermöglicht es dem Roboter, konkrete Handlungen auszuführen, wie z.B. Abbiegen in Richtung eines bestimmten Ziels.
Gemini und KI – Mehr als nur Theorie
Im Dezember stellte Demis Hassabis, CEO von Google DeepMind, das Gemini-Modell vor und betonte, dass dessen multimodale Fähigkeiten neue Anwendungsmöglichkeiten für Roboter eröffnen würden. Die Forscher des Projekts berichten, dass ihr Roboter bis zu 90 Prozent der Zeit erfolgreich navigiert, selbst wenn ihm komplexe Befehle wie „Wo habe ich meinen Untersetzer gelassen?“ gegeben werden. Das System von DeepMind hat die Natürlichkeit der Mensch-Roboter-Interaktion erheblich verbessert und die Benutzerfreundlichkeit des Roboters stark erhöht.
Dieser Demonstration zufolge zeigen sich vielversprechende Ansätze, wie KI-Modelle wie Gemini die physische Welt beeinflussen können. Bislang operierten solche Modelle hauptsächlich innerhalb von Webbrowsern oder Apps, doch durch die zunehmende Fähigkeit zur Verarbeitung visueller und auditiver Eingaben erweitern sich ihre Einsatzbereiche. Im Mai präsentierte Hassabis eine Anwendung, die mit Hilfe einer Smartphone-Kamera die Bürolayouts analysieren kann.
Forschung und Investitionen: Zukunft der Robotik
Sowohl akademische als auch industrielle Forschungslabore arbeiten intensiv daran, Sprachmodelle zur Verbesserung der Roboterfähigkeiten zu nutzen. Auf der International Conference on Robotics and Automation im Mai wurden fast zwei Dutzend Arbeiten vorgestellt, die visuelle Sprachmodelle verwenden. Investoren zeigen großes Interesse an Startups, die fortschrittliche KI-Technologien auf die Robotik anwenden.
Einige der Forscher, die ursprünglich am Google-Projekt beteiligt waren, haben das Unternehmen verlassen und ein Startup gegründet, das 70 Millionen Dollar als Startkapital erhielt. Ziel ist es, große Sprachmodelle mit realer Ausbildung zu kombinieren, um Robotern allgemeine Problemlösungsfähigkeiten zu verleihen. Ein weiteres Startup, gegründet von Robotikern der Carnegie Mellon University, verfolgt ähnliche Ziele und konnte kürzlich 300 Millionen Dollar an Finanzierung sichern.
Noch vor wenigen Jahren benötigte ein Roboter detaillierte Karten seiner Umgebung und präzise Befehle, um erfolgreich zu navigieren. Heutige große Sprachmodelle beinhalten nützliches Wissen über die physische Welt. Neue Versionen, die auf Bildern und Videos sowie Texten trainiert wurden, bekannt als visuelle Sprachmodelle, können nun Fragen beantworten, die Wahrnehmung erfordern. Gemini erlaubt es Googles Robotern, visuelle Anweisungen ebenso wie gesprochene zu interpretieren.
Zukunftsperspektiven und Ausblick
In ihrer Veröffentlichung erklären die Forscher, dass sie planen, das System an verschiedenen Arten von Robotern zu testen. Sie sind zuversichtlich, dass Gemini in der Lage sein wird, auch komplexere Fragen zu verstehen, wie z.B. „Haben sie heute mein Lieblingsgetränk?“, gefragt von einem Benutzer, dessen Schreibtisch voller leerer Coladosen steht.
Die Entwicklungen zeigen eine vielversprechende Zukunft, in der Sprachmodelle und Robotik eng miteinander verknüpft sind und uns dabei helfen, alltägliche Aufgaben effizienter und intuitiver zu bewältigen.