Denken oder nur so tun als ob?

Große Sprachmodelle wie GPT, Claude oder Gemini beeindrucken mit der Fähigkeit, logische Texte zu generieren, Rätsel zu lösen oder Ketten von Argumenten aufzubauen. Das ist so beeindruckend, dass man meinen könnte, man kommuniziere mit einem guten Freund. Doch denkt eine KI wirklich? Oder ist das, was wir erleben, nur eine raffinierte Simulation?

Apple hat genau diese Frage zum Ausgangspunkt einer neuen Studie gemacht – mit ernüchterndem Ergebnis: Auch spezialisierte Reasoning-Modelle simulieren Denken nur oberflächlich. In Wahrheit brechen sie bei höherer Komplexität schnell zusammen – obwohl sie formal korrekt "weiterreden".


Kontrollierte Experimente statt Multiple Choice

Um die Grenzen maschinellen Denkens greifbar zu machen, nutzte das Apple-Forschungsteam klassische Denkspiele wie:

  • Tower of Hanoi
  • River Crossing (Flussüberquerung mit Einschränkungen)
  • Checker-Jumping (Sprungreihenfolge optimieren)
  • Blocks World (Objekte in eine bestimmte Reihenfolge bringen)

Diese Aufgaben sind nicht nur kognitiv anspruchsvoll, sondern lassen sich in ihrer Komplexität fein skalieren. So konnten die Forscher exakt nachvollziehen, wie sich Modelle bei zunehmender Schwierigkeit verhalten – und wann sie "aufgeben".


Absturz ohne Ansage

Die Experimente zeigten ein klares Muster:

  1. Bei einfacher Komplexität performen klassische LLMs (die ohne explizite Denk-Ketten arbeiten) besser als spezielle Reasoning-Modelle.
  2. Bei mittlerer Komplexität gewinnen die Reasoning-Modelle die Oberhand.
  3. Ab hoher Komplexität kollabieren beide Systeme – die Leistung sinkt auf Zufallsniveau.

Besonders auffällig: Selbst wenn ein Modell einen Lösungsweg beginnt, bricht es diesen häufig zu früh ab. Es generiert weniger Denk-Token als möglich wären – als würde es "resignieren". Ein Verhalten, das Apple als "Scaling Collapse " beschreibt.


Warum "Chain of Thought" nicht reicht

Die Ergebnisse lassen sich auf eine zentrale Schwäche zurückführen: Sprachmodelle verstehen nicht, warum ein Schritt gemacht wird – sie antizipieren nur, was als nächstes plausibel klingt.

Selbst wenn man einem Modell einen korrekten Algorithmus explizit zur Verfügung stellt, etwa für den Tower of Hanoi, verbessert sich seine Leistung kaum. Es scheitert nicht am Wissen, sondern an der Anwendung.

Hinzu kommen weitere Probleme:

  • Fragilität: Kleine Änderungen in der Aufgabenstellung führen zu drastischem Leistungsabfall.
  • Ineffizienz: Modelle neigen dazu, nach korrekten Lösungen weiterzureden – statt einfach zu stoppen.
  • Illusion der Tiefe: Komplexe Argumentationsketten wirken durch Sprache tiefgründig, bleiben aber oft inhaltsleer.


Und was folgt daraus?

Apple zieht eine klare Grenze: Sprachmodelle imitieren nur das Denken. Was sie erzeugen, sind hochwahrscheinliche Textfolgen, keine echten Denkprozesse. Auch wenn sie logisch klingen, fehlt ihnen jedes Bewusstsein für Sinn, Ziel oder Fehlerkorrektur.

Ein Reddit-Kommentar bringt es auf den Punkt:

„Until we measure coherence, utility, and truth at each step, ‘thinking’ will remain an illusion.“


Der Weg zu echtem Denken?

Wenn wir wirklich denkende Systeme wollen, braucht es mehr:

  • Modularität: Trennung von Sprachproduktion und logischer Struktur
  • Symbolisches Denken: KI muss mit Konzepten arbeiten, nicht nur mit Tokens
  • Selbstreflexion & Zielorientierung: Modelle müssen bewerten, warum ein Schritt gemacht wird

Der Weg dahin ist weit. Doch Apples Forschung legt offen, wie wichtig es ist, zwischen sprachlicher Eleganz und echter kognitiver Leistung zu unterscheiden.


Quelle & Lesetipp

Originalartikel von Apple Research - Wer sich tiefer einlesen möchte, findet dort auch detaillierte Experimente, Visualisierungen und ein technisches Whitepaper: The Illusion of Thinking