Agentur.rocks
  • Technologien
    • KI
    • Adserver
    • CMS
    • CRM
    • E-Commerce
    • Tools
    • Tracking
  • Marketing
    • Affiliate Marketing
    • Content Marketing
    • Display Advertising
    • Network Marketing
    • Newsletter Marketing
    • Digitales Marketing
    • Push Notifications
    • SEA
    • SEO
    • Social Advertising
    • Personal Marketing
    • Social Media
  • Agenturen
  • Dienstleister
    • Daten Dienstleister
    • Entwickler
    • Server Hosting
  • Tools und Weiteres
    • News
    • Anleitungen
    • Wissen
    • CRM Systeme
    • Tipps & Tricks
    • FAQ
    • Jobs
    • Rechner
      • Cost per Action (CPA) berechnen
      • Cost per Click (CPC) berechnen
      • Cost per Lead (CPL) berechnen
      • Cost per View (CPV)
      • Cost per Order (CPO) berechnen
      • Kosten Umsatz Relation (KUR) berechnen
    • Datenschutz
      • Datenschutz News
      • Datenschutz Tools
Kategorien
  • Adserver
  • Affiliate Marketing
  • Agenturen
  • Allgemein
  • Anleitungen
  • Branchen
  • CMS
  • Content Marketing
  • CRM
  • CRM Anbieter
  • Datenschutz
  • Dienstleister
  • Digitales Marketing
  • Display Advertising
  • E-Commerce
  • Entwickler
  • FAQ
  • Jobs
  • KI
  • Marketing
  • Network Marketing
  • News
  • Newsletter Marketing
  • Online Marketing
  • Personal Marketing
  • Push Notifications
  • SEA
  • SEO
  • Server Hosting
  • Social Advertising
  • Social Media
  • Technologien
  • Tipps & Tricks
  • Tools
  • Tracking
  • Wissen
Bei Google Podcast anhören
Agentur.rocks
  • Technologien
    • KI
    • Adserver
    • CMS
    • CRM
    • E-Commerce
    • Tools
    • Tracking
  • Marketing
    • Affiliate Marketing
    • Content Marketing
    • Display Advertising
    • Network Marketing
    • Newsletter Marketing
    • Digitales Marketing
    • Push Notifications
    • SEA
    • SEO
    • Social Advertising
    • Personal Marketing
    • Social Media
  • Agenturen
  • Dienstleister
    • Daten Dienstleister
    • Entwickler
    • Server Hosting
  • Tools und Weiteres
    • News
    • Anleitungen
    • Wissen
    • CRM Systeme
    • Tipps & Tricks
    • FAQ
    • Jobs
    • Rechner
      • Cost per Action (CPA) berechnen
      • Cost per Click (CPC) berechnen
      • Cost per Lead (CPL) berechnen
      • Cost per View (CPV)
      • Cost per Order (CPO) berechnen
      • Kosten Umsatz Relation (KUR) berechnen
    • Datenschutz
      • Datenschutz News
      • Datenschutz Tools
  • News

Apples Schockstudie: KI-Modelle versagen bei Alltagstests!

  • Thomas Harnisch
  • 16.10.2024 04:13
Apples Schockstudie: KI-Modelle versagen bei Alltagstests!
Symbolfoto
Total
2
Shares
0
0
2
  • Unternehmen wie OpenAI und Google sind führend in der KI-Entwicklung, während Apple-Ingenieure die Fragilität der mathematischen “Logik” von LLMs aufdecken. Eine Studie zeigt, dass LLMs nicht in der Lage sind, echtes logisches Denken auszuführen, sondern nur Denkschritte aus ihrem Trainingsdatensatz nachahmen. Die Leistung von LLMs bei modifizierten Benchmark-Tests zeigt hohe Variabilität und mangelnde formale Schlussfolgerungskompetenzen. Änderungen in Details wie Zahlen und Namen führen zu erheblichen Leistungsabfällen bei LLMs. Die Forschung betont die Grenzen einfacher Mustererkennung und die Notwendigkeit wahrer Symbolmanipulation für Fortschritte in der KI.

Seit einiger Zeit sind Unternehmen wie OpenAI und Google führend in der Entwicklung künstlicher Intelligenz. Doch eine neue Studie von sechs Apple-Ingenieuren offenbart, dass die mathematische “Logik” fortschrittlicher großer Sprachmodelle äußerst fragil und unzuverlässig bei scheinbar trivialen Veränderungen bekannter Benchmark-Probleme sein kann. Diese Brüchigkeit unterstützt frühere Forschungen, die nahelegen, dass das probabilistische Mustererkennen der LLMs an einem formalen Verständnis der zugrunde liegenden Konzepte fehlt, das für wirklich zuverlässige mathematische Problemlösungsfähigkeiten notwendig ist. “Aktuelle LLMs sind nicht in der Lage zu echtem logischen Denken”, postulieren die Forscher basierend auf ihren Ergebnissen. “Stattdessen versuchen sie, die in ihrem Trainingsdatensatz beobachteten Denkschritte nachzuahmen.”

Beschränkungen der LLMs enthüllen

Im Papier “GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models” beginnen die sechs Apple-Forscher mit der Analyse von GSM8K, einem beliebten Benchmark für die komplexen Denkfähigkeiten moderner LLMs. Sie verfolgen dann einen neuartigen Ansatz, indem sie einen Teil dieses Tests dynamisch modifizieren, indem sie bestimmte Namen und Zahlen durch neue Werte ersetzen. So könnte eine Frage, die sich auf Sophie bezieht, die 31 Bausteine für ihren Neffen erhält, zu einer Frage geändert werden, bei der es um Bill geht, der 19 Bausteine für seinen Bruder erhält. Diese Methode vermeidet potenzielle “Datenverunreinigung”, die auftreten kann, wenn statische GSM8K-Fragen direkt in die Trainingsdaten eines KI-Modells eingespeist werden.

Bei Tests mit über 20 LLMs zeigte sich, dass die durchschnittliche Genauigkeit bei GSM-Symbolic im Vergleich zu GSM8K abnahm. Die Leistung schwankte zwischen 0,3 und 9,2 Prozent. Die Variabilität war hoch, mit Differenzen von bis zu 15 Prozent bei 50 verschiedenen Durchläufen derselben GSM-Symbolic-Bewertung. Insbesondere tendierten Zahlenänderungen dazu, eine schlechtere Genauigkeit zu verursachen als Namensänderungen. Diese Art der Variabilität legt nahe, dass den Modellen formale Schlussfolgerungskompetenzen fehlen.

Kritische Herausforderungen

Die Unterschiede in der Leistung zwischen GSM8K und GSM-Symbolic werfen Fragen über die Fähigkeit von LLMs auf, echtes logisches Denken auszuführen. Ein besonders herausforderndes Beispiel zeigt sich, wenn Details hinzugefügt werden wie “fünf davon [die Kiwis] waren etwas kleiner als der Durchschnitt”, was zu massiven Leistungsabfällen führte. Diese Art von “kritischen Fehlern” verdeutlicht tiefere Probleme im Denkprozess der Modelle, die nicht durch Feinabstimmung oder andere Verfeinerungen behoben werden können.

Insgesamt zeigt diese Forschung die inhärenten Grenzen einfacher Mustererkennung. Die resultierenden “katastrophalen Leistungsabfälle”, die von 17.5 bis 65.7 Prozent reichen, belegen, dass ein echtes Verständnis der zugrundeliegenden Bedeutung fehlt. Dieses Phänomen, das die Grenzen gegenwärtiger KI-Fähigkeiten verdeutlicht, bringt einige Experten zu der Schlussfolgerung, dass die nächste große Entwicklung in der KI nur dann erreicht werden kann, wenn diese Netzwerke wahre Symbolmanipulation integrieren können, wie man sie in algebraischen Gleichungen findet. Bis dahin werden wir weiterhin fragiles “Denken” beobachten, das oft zu unerwarteten Fehlern führt.

Mehr zum Thema:
  • Die besten 50 Seo Tipps für Einsteiger
    Die 50 besten SEO Tipps für Einsteiger
  • AI-Startup revolutioniert den Markt: Die Lösung für KI-Texte?
    AI-Startup revolutioniert den Markt: Die Lösung für…
  • Entdecke den geheimen Schlüssel zu einem messerscharfen Verstand!
    Entdecke den geheimen Schlüssel zu einem…
Total
2
Shares
Share 0
Tweet 0
Pin it 2
Avatar-Foto
Thomas Harnisch

Thomas Harnisch ist Senior Online Marketing Manager mit über 17 Jahren Berufserfahrung, davon mehr als 8 Jahre in der Touristik. Als Hobbyfotograf und -koch probiert Thomas Harnisch gerne neue technische Geräte aus. Wenn er nicht gerade fotografiert oder eine kulinarische Kreation zaubert, verbringt er seine Zeit mit seiner Frau und seiner kleinen Tochter. Mit seinem neuen Blog agentur.rocks möchte Thomas gerne sein Wissen und seine gemachten Erfahrungen teilen.

Dir könnte auch gefallen
Brisante Datenpanne: 184 Millionen Logins aufgedeckt!
Weiterlesen
  • News
Brisante Datenpanne: 184 Millionen Logins aufgedeckt!
  • Thomas Harnisch
  • 22.05.2025 22:13
Unglaublich: Wie 3D-Druck die Waffenwelt revolutioniert!
Weiterlesen
  • News
Unglaublich: Wie 3D-Druck die Waffenwelt revolutioniert!
  • Thomas Harnisch
  • 22.05.2025 21:43
Verpassen Sie nicht die 35 besten Amazon-Deals zum Memorial Day!
Weiterlesen
  • News
Verpassen Sie nicht die 35 besten Amazon-Deals zum Memorial Day!
  • Thomas Harnisch
  • 22.05.2025 21:16
Schreibe einen Kommentar Antworten abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Anzeigen
Peter













Neueste Beiträge
  • Brisante Datenpanne: 184 Millionen Logins aufgedeckt!
    Brisante Datenpanne: 184 Millionen Logins aufgedeckt!
  • Unglaublich: Wie 3D-Druck die Waffenwelt revolutioniert!
    Unglaublich: Wie 3D-Druck die Waffenwelt revolutioniert!
  • Verpassen Sie nicht die 35 besten Amazon-Deals zum Memorial Day!
    Verpassen Sie nicht die 35 besten Amazon-Deals zum Memorial Day!
  • Asus ROG Strix G16: Power im Schatten eines schwachen Displays
    Asus ROG Strix G16: Power im Schatten eines schwachen Displays
  • Schockierende Vorhersage: KI könnte Hälfte der Rechenleistung schlucken!
  • Die VAE revolutionieren die Zukunft der KI mit PAN-Modell!
    Die VAE revolutionieren die Zukunft der KI mit PAN-Modell!
Agentur.rocks
  • Datenschutzerklärung
  • Impressum
  • Sitemap
  • Gastbeiträge
  • Portale und Profile
  • Cookies
Der Blog für Marketing-Interessierte
Marketing/CRM
  • Die 50 wichtigsten Marketingbegriffe
  • CRM Systeme
  • CRM – Customer Relationship Management
  • CRM-Marketing Kundenloyalität
  • CRM Systeme für kleine Unternehmen 
  • Network Marketing Firmen
SEO
  • SEO Optimierung
  • Die 50 besten SEO Tipps
  • SEO Optimierung Preis
  • SEO Optimierung kostenlos
E-Commerce
  • E-Commerce
  • E-Commerce Umsatz steigern
  • E-Commerce Online Marktplatz
  • E-Commerce Nische
  • Network Marketing Firmen

Gib dein Suchwort ein und drücke Enter.