- Unternehmen wie OpenAI und Google sind führend in der KI-Entwicklung, während Apple-Ingenieure die Fragilität der mathematischen “Logik” von LLMs aufdecken. Eine Studie zeigt, dass LLMs nicht in der Lage sind, echtes logisches Denken auszuführen, sondern nur Denkschritte aus ihrem Trainingsdatensatz nachahmen. Die Leistung von LLMs bei modifizierten Benchmark-Tests zeigt hohe Variabilität und mangelnde formale Schlussfolgerungskompetenzen. Änderungen in Details wie Zahlen und Namen führen zu erheblichen Leistungsabfällen bei LLMs. Die Forschung betont die Grenzen einfacher Mustererkennung und die Notwendigkeit wahrer Symbolmanipulation für Fortschritte in der KI.
Seit einiger Zeit sind Unternehmen wie OpenAI und Google führend in der Entwicklung künstlicher Intelligenz. Doch eine neue Studie von sechs Apple-Ingenieuren offenbart, dass die mathematische “Logik” fortschrittlicher großer Sprachmodelle äußerst fragil und unzuverlässig bei scheinbar trivialen Veränderungen bekannter Benchmark-Probleme sein kann. Diese Brüchigkeit unterstützt frühere Forschungen, die nahelegen, dass das probabilistische Mustererkennen der LLMs an einem formalen Verständnis der zugrunde liegenden Konzepte fehlt, das für wirklich zuverlässige mathematische Problemlösungsfähigkeiten notwendig ist. “Aktuelle LLMs sind nicht in der Lage zu echtem logischen Denken”, postulieren die Forscher basierend auf ihren Ergebnissen. “Stattdessen versuchen sie, die in ihrem Trainingsdatensatz beobachteten Denkschritte nachzuahmen.”
Beschränkungen der LLMs enthüllen
Im Papier “GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models” beginnen die sechs Apple-Forscher mit der Analyse von GSM8K, einem beliebten Benchmark für die komplexen Denkfähigkeiten moderner LLMs. Sie verfolgen dann einen neuartigen Ansatz, indem sie einen Teil dieses Tests dynamisch modifizieren, indem sie bestimmte Namen und Zahlen durch neue Werte ersetzen. So könnte eine Frage, die sich auf Sophie bezieht, die 31 Bausteine für ihren Neffen erhält, zu einer Frage geändert werden, bei der es um Bill geht, der 19 Bausteine für seinen Bruder erhält. Diese Methode vermeidet potenzielle “Datenverunreinigung”, die auftreten kann, wenn statische GSM8K-Fragen direkt in die Trainingsdaten eines KI-Modells eingespeist werden.
Bei Tests mit über 20 LLMs zeigte sich, dass die durchschnittliche Genauigkeit bei GSM-Symbolic im Vergleich zu GSM8K abnahm. Die Leistung schwankte zwischen 0,3 und 9,2 Prozent. Die Variabilität war hoch, mit Differenzen von bis zu 15 Prozent bei 50 verschiedenen Durchläufen derselben GSM-Symbolic-Bewertung. Insbesondere tendierten Zahlenänderungen dazu, eine schlechtere Genauigkeit zu verursachen als Namensänderungen. Diese Art der Variabilität legt nahe, dass den Modellen formale Schlussfolgerungskompetenzen fehlen.
Kritische Herausforderungen
Die Unterschiede in der Leistung zwischen GSM8K und GSM-Symbolic werfen Fragen über die Fähigkeit von LLMs auf, echtes logisches Denken auszuführen. Ein besonders herausforderndes Beispiel zeigt sich, wenn Details hinzugefügt werden wie “fünf davon [die Kiwis] waren etwas kleiner als der Durchschnitt”, was zu massiven Leistungsabfällen führte. Diese Art von “kritischen Fehlern” verdeutlicht tiefere Probleme im Denkprozess der Modelle, die nicht durch Feinabstimmung oder andere Verfeinerungen behoben werden können.
Insgesamt zeigt diese Forschung die inhärenten Grenzen einfacher Mustererkennung. Die resultierenden “katastrophalen Leistungsabfälle”, die von 17.5 bis 65.7 Prozent reichen, belegen, dass ein echtes Verständnis der zugrundeliegenden Bedeutung fehlt. Dieses Phänomen, das die Grenzen gegenwärtiger KI-Fähigkeiten verdeutlicht, bringt einige Experten zu der Schlussfolgerung, dass die nächste große Entwicklung in der KI nur dann erreicht werden kann, wenn diese Netzwerke wahre Symbolmanipulation integrieren können, wie man sie in algebraischen Gleichungen findet. Bis dahin werden wir weiterhin fragiles “Denken” beobachten, das oft zu unerwarteten Fehlern führt.