- Großangelegte Sprachmodelle erfordern immense Rechenressourcen und sind energiekonsumierend. Die neuesten Modelle von Firmen wie OpenAI und Meta nutzen Milliarden von Parametern, um Muster und Verknüpfungen besser zu erkennen. Kleine Modelle mit weniger Parametern sind in spezifischen Aufgabenbereichen sehr effektiv und können auf Laptops oder Handys ausgeführt werden. Wissensverdichtung und Pruning sind Techniken zur Optimierung und Erstellung kleiner Modelle. Trotz der Stärke großer Modelle bieten kleine Modelle eine kostengünstige und effiziente Plattform für viele Benutzer.
Großangelegte Sprachmodelle (Large Language Models, LLMs) funktionieren gut, weil sie enorme Datenmengen verarbeiten können. Die neuesten Modelle von OpenAI, Meta und DeepSeek verwenden Hunderte von Milliarden sogenannter “Parameter” – diese passen die Verbindungen zwischen Daten an und werden während des Trainingsprozesses justiert. Mit einer höheren Anzahl an Parametern sind diese Modelle besser in der Lage, Muster und Verknüpfungen zu erkennen, was sie wiederum leistungsfähiger und präziser macht. Diese Kraft hat jedoch ihren Preis. Die Entwicklung eines Modells mit einer solchen Vielzahl von Parametern erfordert immense Rechenressourcen.
Herausforderungen der Rechenleistung
Ein Beispiel dafür ist das Gemini 1.0 Ultra-Modell von Google, für dessen Training Google immense Summen investiert hat. Die Verarbeitungskapazität, die solche großen Modelle benötigen, macht sie zu wahren Energiefressern. Eine einzige Anfrage an ein Sprachmodell wie ChatGPT verbraucht nahezu die gleiche Energie wie eine Google-Suche, wie das Electric Power Research Institute berichtet. Diese Situation hat einige Forscher dazu veranlasst, über kleinere Modelle nachzudenken. IBM, Google, Microsoft und OpenAI haben kürzlich sogenannte kleine Sprachmodelle (Small Language Models, SLMs) veröffentlicht, die nur wenige Milliarden Parameter nutzen – ein Bruchteil im Vergleich zu ihren großen Geschwistern.
Potenziale kleiner Modelle
Kleine Modelle dienen nicht als Allzweckwerkzeuge wie ihre größeren Pendants, sondern sind in spezifischen, klar umrissenen Aufgabenbereichen sehr effektiv. So brillieren sie etwa beim Zusammenfassen von Gesprächen, bei der Beantwortung von Fragen in Form eines Gesundheits-Chatbots oder beim Datensammeln in intelligenten Geräten. “Für viele Aufgaben ist ein Modell mit 8 Milliarden Parametern tatsächlich ziemlich gut”, sagte ein Computerwissenschaftler von der Carnegie Mellon University. Außerdem können diese Modelle auf Laptops oder Handys ausgeführt werden, anstatt auf riesigen Rechenzentren.
Um den Trainingsprozess dieser kleinen Modelle zu optimieren, wenden Forscher einige Kniffe an. Große Modelle beziehen ihre Rohdaten oft aus dem Internet, diese sind jedoch unstrukturiert und chaotisch. Doch sie können ein qualitativ hochwertiges Datenset generieren, das zur Schulung kleiner Modelle verwendet wird. Dieser Ansatz, der als Wissensverdichtung bezeichnet wird, ermöglicht es dem größeren Modell, quasi wie ein Lehrer die Erkenntnisse an das kleinere Modell weiterzugeben. Forscher haben auch erkundet, wie man kleine Modelle erschaffen kann, indem man große Modelle beschneidet, ein Prozess, der als Pruning bekannt ist.
Effiziente Ansätze für die Zukunft
Beim Pruning werden ineffiziente oder unnötige Teile eines Netzwerks entfernt, was von der Arbeitsweise des menschlichen Gehirns inspiriert wurde. Auch innerhalb der Wissenschaftsgemeinschaft, die sich mit der Funktionsweise von Sprachmodellen beschäftigt, bieten kleinere Modelle eine kostengünstige Plattform, um neue Ideen zu testen. Aufgrund ihrer geringeren Parameteranzahl könnte das rationale Vorgehen dieser Modelle sogar transparenter sein. Trotz der Nützlichkeit großer und teurer Modelle mit ihren immer zahlreicher werdenden Parametern für allgemeinere Anwendungen, wird für viele Benutzer ein kleines, spezialisiertes Modell ausreichen. Sie sind nicht nur einfacher für Forscher zu trainieren und zu entwickeln, sondern diese effizienten Modelle können auch Kosten, Zeit und Rechenleistung sparen.