- Google hat die dritte Generation seiner Open-Source-KI-Modelle unter dem Label Gemma vorgestellt, die in vier Varianten erhältlich sind und auf Geräten von Smartphones bis hin zu Arbeitsstationen laufen können. Die Gemma-3-Modelle gelten als weltweit beste Modelle für den Einsatz mit einem Einzelbeschleuniger, da sie auf einer einzigen GPU oder TPU laufen können. Gemma 3 unterstützt die Verarbeitung von Texten, Bildern und Videos und übertrifft damit bekannte Modelle wie Meta’s Llama-405B. Das Kontextsfenster von Gemma 3 umfasst 128.000 Tokens, was eine umfassende Datenverarbeitung ermöglicht. Die Modelle sind lokal oder über Googles cloudbasierte Plattformen wie die Vertex AI-Suite einsetzbar und fördern die Entwicklung ressourcenschonender Modelle für Mobilgeräte.
Google treibt seine KI-Bemühungen mit der Gemini-Plattform voran, einem Schlüsselelement seiner weit verbreiteten Software- und Hardwareprodukte. Darüber hinaus bietet das Unternehmen seit über einem Jahr eine Reihe von Open-Source-AI-Modellen unter dem Label Gemma an. Kürzlich stellte Google seine dritte Generation dieser Modelle vor, die mit beeindruckenden Funktionen aufwartet. Die Gemma-3-Modelle sind in vier Varianten erhältlich – mit 1 Milliarde, 4 Milliarden, 12 Milliarden und 27 Milliarden Parametern. Diese Modelle sind darauf ausgelegt, auf Geräten von Smartphones bis hin zu leistungsfähigen Arbeitsstationen zu laufen.
Mit mobilen Geräten kompatibel
Google hebt hervor, dass das Gemma-3-Modell als weltweit bestes Modell mit einem Einzelbeschleuniger gilt. Dies bedeutet, dass es auf einer einzigen GPU oder TPU laufen kann, anstatt einen gesamten Cluster zu benötigen. So könnte ein Gemma-3-AI-Modell problemlos auf dem TPU des Pixel-Smartphones arbeiten. Da Gemma-3 Open-Source ist, können Entwickler es an ihre speziellen Bedürfnisse anpassen und innerhalb mobiler Apps und Desktop-Software nutzen. Ein weiterer Vorteil: Gemma unterstützt über 140 Sprachen, von denen 35 bereits vortrainiert angeboten werden.
Was ist neu an Gemma 3? Es kann nicht nur Text, sondern auch Bilder und Videos verstehen. Diese Mehrdimensionalität hebt es von anderen KI-Modellen ab. In puncto Leistung übertrifft es sogar bekannte Modelle wie Meta’s Llama-405B.
Flexibel und einsatzbereit
Ein bemerkenswerter Aspekt ist das Kontextsfenster von Gemma 3, das 128.000 Tokens umfasst – genug, um ein ganzes 200-Seiten-Buch einzuspeisen. Zum Vergleich: Das Kontextsfenster des Gemini-2.0-Flash-Lite-Modells umfasst eine Million Tokens. Ein durchschnittliches englisches Wort entspricht etwa 1,3 Tokens in der Welt der KI-Modelle. Zudem unterstützt Gemma 3 das Aufrufen von Funktionen und strukturierte Ausgaben, was eine nahtlose Interaktion mit externen Datensätzen ermöglicht – ähnlich wie bei Gemini, das problemlos Funktionen wie Google Mail oder Docs nutzen kann.
Die neuen Open-Source-KI-Modelle von Google können entweder lokal oder über cloudbasierte Plattformen des Unternehmens wie die Vertex AI-Suite eingesetzt werden. Verfügbar sind sie sowohl über das Google AI Studio als auch über externe Repositories wie Hugging Face, Ollama und Kaggle. Diese Flexibilität fördert den Trend in der Branche, sowohl große Sprachmodelle als auch kleine, ressourcenschonende Modelle wie die Gemma-Serie zu entwickeln, um sie auch auf Mobilgeräten effizient nutzen zu können.