- Aktuelle Modelle beeindruckend in digitaler, aber herausgefordert in physischer Welt. Physische Intelligenz benötigt Verständnis grundlegender Naturgesetze. Flüssige Netzwerke ermöglichen kontinuierliches Lernen und Anpassung. Fortschritte in Robotik ermöglichen physische Umsetzung komplexer Befehle. 2025 markiert Beginn der Ära der physischen Intelligenz.
Aktuelle Modelle zeigen eine erstaunliche Fähigkeit, menschenähnliche Texte, Audios und Videos zu generieren, wenn sie gefragt werden. Bisher blieb dieser algorithmische Zauber jedoch größtenteils auf die digitale Welt beschränkt, anstatt unsere greifbare, dreidimensionale Realität zu umarmen. Tatsächlich erweisen sich selbst die fortschrittlichsten Modelle als herausgefordert, wenn es darum geht, in der Realität adäquat zu agieren – sicherer und zuverlässiger autonomer Verkehr sind dafür ein Beispiel. Während künstliche Intelligenz beeindruckend ist, fehlt es diesen Modellen an einem Verständnis für Physik. Sie tendieren zu Halluzinationen, was zu unerklärlichen Fehlentscheidungen führt. Doch dies ist das Jahr, in dem die KI durchstartet.
Von der Digitalwelt zur physischen Welt
Die Ausweitung von KI über ihre digitalen Grenzen erfordert eine Neuausrichtung des maschinellen Denkens. Dies bedeutet die Verschmelzung der digitalen Intelligenz der KI mit der mechanischen Kompetenz der Robotik. Eine Erscheinung, die ich als “physische Intelligenz” bezeichne – eine neue Form, in der intelligente Maschinen dynamische Umgebungen verstehen, Unberechenbarkeiten bewältigen und in Echtzeit Entscheidungen treffen können. Anders als bei herkömmlichen KI-Modellen ist physische Intelligenz in den Prinzipien der Physik verwurzelt; in einem Verständnis grundlegender Naturgesetze, wie etwa von Ursache und Wirkung.
In meiner Forschungsgruppe am MIT entwickeln wir Modelle physischer Intelligenz, die wir “flüssige Netzwerke” nennen. In einem Experiment haben wir beispielsweise zwei Drohnen trainiert – eine mit einem Standard-KI-Modell und die andere mit einem flüssigen Netzwerk – um Objekte in einem Wald im Sommer zu identifizieren. Beide Drohnen schnitten gleich gut ab, solange sie ihrem Trainingsmuster folgten. Doch als sie ihre Leistung unter geänderten Bedingungen beweisen mussten, wie im Winter oder in städtischen Gebieten, überzeugte nur die flüssige Netzwerk-Drohne. Dieses Experiment demonstriert, dass flüssige Netzwerke, im Gegensatz zu traditionellen KI-Systemen, kontinuierlich wie Menschen aus Erfahrungen lernen und sich anpassen.
Brücken zwischen digitaler Anweisung und Realität
Physische Intelligenz kann komplexe Befehle aus Texten oder Bildern nicht nur interpretieren, sondern auch physisch umsetzen. So haben wir in unserem Labor ein System entwickelt, das innerhalb weniger Minuten kleine Roboter entwerfen und 3D-drucken kann, basierend auf Eingaben wie „Roboter, der vorwärts laufen kann“ oder „Roboter, der Objekte greifen kann“. Auch andere Labore erzielen beachtliche Fortschritte. Zum Beispiel entwickelt das Robotik-Startup Covariant, gegründet von UC-Berkeley-Forscher Pieter Abbeel, Chatbots, die robotische Arme steuern können, ähnlich wie ChatGTP. Sie haben bereits über 222 Millionen Dollar gesichert, um weltweit Sortierroboter in Lagerhäusern einzusetzen. Ein Team der Carnegie Mellon University konnte kürzlich zeigen, dass ein Roboter mit nur einer Kamera und ungenauer Betätigung dynamische und komplexe Parkoursbewegungen ausführen kann.
Sollte 2023 das Jahr des textbasierten Bildes und 2024 das des videobasierten KI-Modells gewesen sein, so markiert 2025 die Ära der physischen Intelligenz. Eine neue Gerätegeneration – nicht nur Roboter, sondern alles von Stromnetzen bis zu intelligenten Häusern – wird in der Lage sein, unsere Anweisungen zu interpretieren und in der realen Welt umzusetzen.