心の自己モデル化におけるLLMの選択的欠損：心の理論の行動ベーステスト

arXiv cs.AI / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMに対して、自分や他者の心的状態表象を用いて、単に信念を記述するのではなく、戦略的に行動することを求める行動ベースの心の理論（Theory of Mind）実験を導入する。

要約: 知識・意図・信念状態をもった「行為主体」として自分自身や他者を表現し、それに基づいて行動を導く能力——心の理論（Theory of Mind）——は、人間に普遍的なものであり、私たちが社会的な世界を切り抜け、そして（操作さえも）可能にする。これは、私たちが自分自身や他者についての心的モデルを形成できることに支えられている。その人間社会における遍在性ゆえに、LLMは学習データの中でそれの無数の例を見ており、したがってそれを模倣することを学んだ可能性はある。しかし、彼らが任意の状況で展開できる因果モデルを実際に学習しているのかどうかは不明である。そこで本研究では、被験者に対して、自分自身および他者の心的状態について表象を形成させ、それを単に記述するのではなく、戦略的にそれに基づいて行動させることを要求する、新しい実験パラダイムを開発する。私たちは、2024年以降に公開された幅広い主要なオープンソース／クローズドソースのLLMに加えて、人間の被験者を、このパラダイムでテストする。その結果、1) 2025年半ば以前にリリースされたLLMは、すべてのタスクで失敗する、2) より最近のLLMは、他者の認知状態をモデル化する課題で人間レベルの性能を達成する、3) 最前線のLLMでさえも自己モデル化課題では失敗する——ただし、推論トレースという形のスクラッチパッドを与えられた場合を除く、ことが分かった。さらに、他者モデル化タスクにおける認知負荷の影響を示し、LLMが、単一のフォワードパスの間にこれらの心的表象を頭の中で保持するために、限られた容量のワーキングメモリに類似した何かを用いている可能性を示唆する証拠を提示する。最後に、推論モデルが自己および他者モデル化タスクで成功するメカニズムを探り、それらが戦略的な欺瞞を容易に行うことを示す。