- Das Allen Institute for AI (Ai2) hat Molmo, das bisher leistungsfähigste Open-Source-Modell mit visuellen Fähigkeiten, veröffentlicht. Molmo kann Bilder erkennen und durch ein Chat-Interface kommunizieren, was die Interpretation von Computerbildschirmen ermöglicht. Das Modell ist vollständig offen und erlaubt umfangreiche Modifikationen durch Entwickler. Ai2 stellt mehrere Versionen von Molmo vor, einschließlich eines 1-Milliarden-Parameter-Modells, das auf Mobilgeräten läuft. Molmo könnte trotz der Risiken für bösartige Nutzung den Weg für leistungsstärkere Software-Agenten ebnen.
Heute wurde durch das Allen Institute for AI (Ai2) das bisher leistungsfähigste Open-Source-Modell mit visuellen Fähigkeiten veröffentlicht. Dieses Modell, genannt Molmo, kann sowohl Bilder erkennen als auch durch ein Chat-Interface kommunizieren. Damit kann es potenziell einen Computerbildschirm interpretieren, was einem KI-Agenten helfen könnte, Aufgaben wie das Surfen im Internet, das Navigieren durch Dateiverzeichnisse und das Entwerfen von Dokumenten zu übernehmen.
Mit dieser Veröffentlichung könnten viele Entwickler, Forscher und Start-ups multimodale Modelle einsetzen. Der CEO von Ai2, ein Forschungsinstitut in Seattle, Washington, betont, dass Molmo ein Wegbereiter für die nächste Generation von Apps sein könne. Aktuell werden sogenannte KI-Agenten als der nächste große Durchbruch in der Künstlichen Intelligenz gefeiert. Unternehmen wie OpenAI und Google arbeiten mit Hochdruck daran. Ziel ist es, dass KI weit über die reine Kommunikation hinausgeht und in der Lage ist, komplexe und anspruchsvolle Aufgaben auf Computern zuverlässig auszuführen.
Erweiterung multimodaler Modelle
Obwohl es bereits leistungsstarke KI-Modelle mit visuellen Fähigkeiten gibt, wie GPT-4 von OpenAI, Claude von Anthropic und Gemini von Google DeepMind, sind diese hinter Bezahl-APIs verborgen und somit nicht frei zugänglich. Meta hat bisher Modelle unter einer Lizenz veröffentlicht, die ihre kommerzielle Nutzung einschränkt. Trotzdem wurde noch kein echtes multimodales Modell bereitgestellt.
Das offene, multimodale Modell von Ai2 ermöglicht es nun jedem Start-up oder Forscher, ihre Ideen umzusetzen. Ein Wissenschaftler von der Princeton University betont, dass Entwickler durch die Open-Source-Natur von Molmo ihre Agenten besser auf spezifische Aufgaben wie die Arbeit mit Tabellenkalkulationen zuschneiden können. Im Gegensatz zu GPT-4, das nur begrenzt anpassbar ist, erlaubt ein vollständig offenes Modell umfangreiche Modifikationen.
Ai2 setzt neue Maßstäbe
Ai2 stellt heute mehrere Versionen von Molmo vor, darunter ein 70-Milliarden-Parameter-Modell und ein 1-Milliarden-Parameter-Modell, das klein genug ist, um auf einem Mobilgerät zu laufen. Die Anzahl der Parameter eines Modells gibt an, wie viele Einheiten es zur Speicherung und Verarbeitung von Daten enthält und korreliert grob mit seinen Fähigkeiten. Trotz seiner verhältnismäßig geringen Größe soll Molmo genauso leistungsfähig sein wie deutlich größere kommerzielle Modelle, weil es sorgfältig mit qualitativ hochwertigen Daten trainiert wurde. Im Gegensatz zu Metas Llama-Modell gibt es bei Molmo keinerlei Nutzungsbeschränkungen. Ai2 veröffentlicht außerdem die Trainingsdaten, die zur Erstellung des Modells verwendet wurden, was Forschern zusätzliche Einblicke in dessen Funktionsweise gewährt.
Es besteht jedoch auch das Risiko, dass solche leistungsfähigen Modelle für bösartige Zwecke missbraucht werden könnten, beispielsweise zur Automatisierung von Hacking-Versuchen. Trotz dieser Risiken argumentiert Farhadi von Ai2, dass die Effizienz und Portabilität von Molmo den Entwicklern ermöglichen wird, leistungsstärkere Software-Agenten zu erstellen, die nativ auf Smartphones und anderen tragbaren Geräten laufen. Das 1-Milliarden-Parameter-Modell performt bereits auf dem Niveau von Modellen, die mindestens zehnmal größer sind.
Zukunft der AI-Agenten
Um nützliche KI-Agenten zu entwickeln, bedarf es jedoch möglicherweise mehr als nur effizienteren multimodalen Modellen. Eine entscheidende Herausforderung besteht darin, die Modelle zuverlässiger zu machen. Dies könnte weitere Durchbrüche in den logischen Fähigkeiten der KI erfordern—etwas, das OpenAI mit seinem neuesten Modell o1 angegangen ist. Der nächste Schritt könnte darin bestehen, solchen multimodalen Modellen logische Fähigkeiten zu verleihen.
Mit der Veröffentlichung von Molmo rücken KI-Agenten nun näher als je zuvor und könnten bald auch außerhalb der großen Unternehmen, die die Welt der KI dominieren, nützlich sein.