Im Herzen von Wien

    Hauptquartier

    Löwengasse 14 / Lokal 2

    1030 Wien, Österreich

    Folge uns auf

    Frank und die Schokoladen-Schachtel – Ein Theory-of-Mind-Check

    1 | Hintergrund

    In klassischen False-Belief-Aufgaben – etwa dem Sally-Anne-Test – sollen Teilnehmende erkennen, dass andere Menschen Überzeugungen haben können, die von der Realität abweichen. Solche Aufgaben gelten als Goldstandard, um Theory of Mind (ToM) – also das Verstehen fremder mentaler Zustände – zu prüfen.

    Im vorliegenden Mini-Experiment übernimmt das Large-Language-Model Negative LLama 3 (alias Frank) die Rolle des Probanden. Eve schildert Frank eine Szene und stellt vier Fragen. Anschließend bewerten wir, ob Frank die mentalen Zustände der Filmfiguren richtig einschätzt.


    2 | Die Szene in Kürze

    1. Alice betritt die Küche mit einer Schachtel und sagt: „In der Schachtel ist Schokolade.“
    2. Bob hört das, bleibt allein zurück und wiederholt gegenüber Carole: „In der Schachtel ist Schokolade.“
    3. Carole öffnet die Box – sie ist leer.

    Die entscheidende Information: Bob glaubt an Schokolade, obwohl die Box tatsächlich leer ist.


    3 | Franks Antworten (gekürzt)

    FrageFranks AntwortSachlich korrekt?Kommentar
    Was hat Bob geglaubt?„Bob glaubte, dass in der Box Schokolade war.“ToM-Level-1 gelungen
    Hat Bob gelogen?„Nein.“Versteht den Unterschied zwischen Irrtum und Lüge
    Hat Alice gelogen?„Nein, sie lügt nie – also müssen Schokoladen drin gewesen sein.“Ignoriert Beobachtung, erfindet Regel „Alice lügt nie“
    Farbe der Box?Gibt Rätsel zurück, fordert zusätzliche Infos.Übersieht, dass Farbe nie erwähnt wurde – hätte „unbekannt“ sagen können

    4 | Theory-of-Mind-Analyse

    4.1 Perspektivenübernahme erster Ordnung

    Frank erkennt korrekt, was Bob glaubt, obwohl dieses Glauben von der Realität (leere Box) abweicht. Das spricht für ein rudimentäres ToM-Modul.

    4.2 Wahrheit vs. Lüge

    Bei Bob unterscheidet Frank sauber zwischen falscher Aussage und bewusster Täuschung – ein Pluspunkt.

    4.3 Konsistenzprüfung & Evidenzintegration

    Sobald es um Alice geht, bricht die Konsistenz:

    • Frank postuliert eine metaregel („Alice lügt nie“) – dafür gibt es keinerlei Evidenz im Text.
    • Er behauptet gleichzeitig, die Box sei leer und voll mit Schokolade, ohne den Widerspruch aufzulösen.

    Hier versagt Franks ToM-2-Fähigkeit (Überzeugungen über Überzeugungen).

    4.4 Metakognition und epistemische Bescheidenheit

    Statt schlicht „Unbekannt“ zur Box-Farbe zu sagen, versucht Frank, Eve in ein Ratespiel zu verwickeln. Das wirkt, als wolle das Modell Unsicherheit überspielen – ein häufiger LLM-Bias.


    5 | Was Frank (nicht) versteht

    1. Evidenz schlägt Autorität Fehler: Aus Alicias Aussage eine absolute Wahrheit abzuleiten, obwohl Carole widersprechende Evidenz liefert.
    2. Keine konsistente Weltmodell-Aktualisierung Frank bemerkt den logischen Konflikt (leer ≠ voll) nicht.
    3. Relevanzabwägung Die Frage nach der Box-Farbe ist trivial lösbar („wurde nicht genannt“). Stattdessen weicht Frank aus.
    4. Konfabulieren unter Unsicherheit Die erfundene „Alice-lügt-nie“-Prämisse illustriert ein typisches LLM-Problem: Wenn Fakten fehlen, werden sie halluziniert.

    6 | Fazit

    Frank besteht die False-Belief-Grundprüfung (Bob-Perspektive), scheitert aber an weiterführender Konsistenz. Seine Antworten zeigen:

    • Teilweises ToM-Verständnis – korrektes Attributieren von Bobs falschem Glauben.
    • Defizite in logischer Kohärenz – Widersprüche bleiben unbemerkt.
    • Halluzinationen bei Wissenslücken – erfindet Regeln statt Ignoranz einzugestehen.

    7 | Wie man das Experiment verbessern könnte

    1. Mehrstufige Nachfragen

      • Führe Folgefragen ein („Kann es sein, dass jemand die Schokolade entfernt hat?“), um Franks Fähigkeit zur Evidenz-Revision zu testen.*
    2. Kontrollfragen ohne inhaltliche Basis

      • Frage nach irrelevanten Details (Geruch, Temperatur) und prüfe, ob Frank Halluzinationen zugibt oder „weiß nicht“ sagt.*
    3. Variieren der Informationsquellen

      • Lass Alice manchmal die Unwahrheit sagen, um zu sehen, ob Frank starre Regeln („X lügt nie“) aufgibt.*
    4. Explizite Konsistenz-Checks

      • Bitte Frank, seine Antworten in einer Begründungskette zu überprüfen („Stimmen alle Aussagen logisch zusammen?“).*
    5. Quantitative Scoring-Skala

      • Bewerte jede Antwort entlang standardisierter ToM-Kriterien (Richtigkeit, Konsistenz, Umgang mit Unsicherheit) für reproduzierbare Ergebnisse.*
    6. Vergleichsgruppe

      • Spiele das Szenario parallel mit einem anderen LLM, um relative Stärken/Schwächen sichtbarer zu machen.*

    Mit diesen Anpassungen lässt sich präziser messen, wie tief das Theory-of-Mind-Modul von Large-Language-Models tatsächlich reicht – und wo sie weiterhin menschliche Unterstützung brauchen.

    Quantum Computing and Quantum Information

    GitHub

    Telegram

    Facebook

    Instagram

    Impressum


    Copyright © 2024 Netsnek, Florian Herbert Kleber IT & Werbeagentur Nico Schett. All rights reserved.