- Meta kündigt neue prominente Stimmen für KI-Assistenten an, darunter Dame Judi Dench und John Cena.
- Llama 3.2, Metas erstes KI-Modell mit visuellen Fähigkeiten, wurde vorgestellt und kann auf mobilen Geräten betrieben werden.
- Mark Zuckerberg demonstrierte bei der Meta-Veranstaltung Connect neue KI-Funktionen, einschließlich Rezepterkennung und Modekommentare.
- Meta AI nutzt multimodale Modelle, die Text, Audio und Bilder verarbeiten können, um erweiterte Funktionen wie Live-Übersetzungen und Video-Synchronisation zu ermöglichen.
- Llama 3.2 wird Entwicklern helfen, KI-gesteuerte Apps zu erstellen, die visuelles Verständnis erfordern, und könnte weitreichende Auswirkungen haben.
Heute hat Meta angekündigt, dass ihr zunehmend vielfältiges Social-Media- und Metaverse-Imperium seine KI-Assistenten mit neuen prominenten Stimmen ausstatten wird. Zu den prominenten Stimmen gehören unter anderem die von Dame Judi Dench und John Cena. Ein weitaus wichtigerer Schritt für Meta’s langfristige Ambitionen ist jedoch die Fähigkeit der neuen Modelle, Fotos und andere visuelle Informationen der Nutzer zu analysieren.
Erweiterte visuelle Fähigkeiten mit Llama 3.2
Meta hat heute auch Llama 3.2 vorgestellt, die erste Version ihrer freien KI-Modelle, die über visuelle Fähigkeiten verfügen und damit ihre Anwendbarkeit für Robotik, virtuelle Realität und sogenannte KI-Agenten erweitern. Einige Versionen von Llama 3.2 sind auch die ersten, die für den Betrieb auf mobilen Geräten optimiert sind. Dies könnte Entwicklern helfen, AI-gesteuerte Apps zu erstellen, die auf einem Smartphone laufen und dessen Kamera nutzen oder den Bildschirm beobachten, um Anwendungen im Namen des Benutzers zu bedienen.
„Dies ist unser erstes Open-Source-Multimodal-Modell, und es wird viele interessante Anwendungen ermöglichen, die visuelles Verständnis erfordern“, sagte Zuckerberg auf der Bühne bei Connect, einer Meta-Veranstaltung in Kalifornien. Durch Meta’s enorme Reichweite könnte das Upgrade der Assistenten vielen Menschen die erste Begegnung mit einer neuen Generation an stimmlich und visuell fähigeren KI-Helfern bieten. Meta gab bekannt, dass mehr als 180 Millionen Menschen Meta AI, den KI-Assistenten des Unternehmens, jede Woche nutzen.
Kochrezepte und Modekommentare
Zuckerberg demonstrierte bei Connect eine Reihe neuer KI-Funktionen. Er zeigte Videos, in denen Llama 3.2 Rezepte basierend auf den sichtbaren Zutaten vorschlägt und Kommentare zu Kleidung abgibt, die in einem Laden zur Schau gestellt wird. Meta-CEO präsentierte zudem mehrere experimentelle KI-Funktionen, an denen das Unternehmen arbeitet. Dazu gehören Software für die Live-Übersetzung zwischen Spanisch und Englisch, automatisches Synchronisieren von Videos in verschiedenen Sprachen und ein Avatar für Kreative, der Fragen ihrer Fans beantworten kann.
Kürzlich hat Meta seine KI prominenter in seinen Apps platziert, zum Beispiel als Teil der Suchleiste in Instagram und Messenger. Die neuen prominenten Sprachmöglichkeiten für Nutzer werden auch Awkwafina, Keegan Michael Key und Kristen Bell umfassen. Bereits früher hatte Meta textbasierten Assistenten Promi-Personas gegeben, aber diese Figuren erfreuten sich wenig Beliebtheit. Im Juli führte das Unternehmen eine Funktion ein, mit der Nutzer Chatbots mit jeder beliebigen Persona erstellen können. Meta kündigte an, dass die neuen Stimmen Nutzern in den USA, Kanada, Australien und Neuseeland im kommenden Monat zur Verfügung stehen werden. Die Bildfunktionen von Meta AI werden in den USA eingeführt, aber das Unternehmen sagte nicht, wann die Features in anderen Märkten erscheinen könnten.
Feedback zu Fotos und Bildbearbeitung
Die neue Version von Meta AI kann auch Feedback zu und Informationen über Nutzerfotos geben. Beispielsweise kann es die Vogelart auf einem Foto identifizieren oder bei der Bildbearbeitung helfen, indem es neue Hintergründe oder Details auf Wunsch hinzufügt.
Das Herzstück der neuen Fähigkeiten von Meta AI ist eine überarbeitete Version von Llama, Meta’s erstklassigem großen Sprachmodell. Das heute angekündigte freie Modell könnte ebenfalls weitreichende Auswirkungen haben, da die Llama-Familie bereits von Entwicklern und Startups weit verbreitet eingesetzt wird. Im Gegensatz zu den Modellen von OpenAI kann Llama heruntergeladen und lokal ohne Gebühr betrieben werden, obwohl es Einschränkungen bei der großflächigen kommerziellen Nutzung gibt.
Größere Sprachmodelle werden zunehmend „multimodal“, das heißt, sie sind darauf trainiert, neben Text auch Audio und Bilder als Eingaben zu verarbeiten. Dies erweitert die Fähigkeiten eines Modells und ermöglicht es Entwicklern, neue Arten von KI-Anwendungen darauf aufzubauen, einschließlich sogenannter KI-Agenten, die nützliche Aufgaben auf Computern im Namen des Nutzers durchführen können. Llama 3.2 sollte es Entwicklern erleichtern, KI-Agenten zu erstellen, die beispielsweise das Internet durchsuchen und möglicherweise nach bestimmten Produkten suchen.
„Multimodale Modelle sind ein großes Thema, da die Daten, die Menschen und Unternehmen verwenden, nicht nur aus Text bestehen; sie können in vielen verschiedenen Formaten vorliegen, einschließlich Bildern und Audio oder spezialisierteren Formaten wie Proteinsequenzen oder Finanzbüchern“, sagt ein Professor am MIT.