LLMにおいて心の理論（Theory of Mind）と精神性の自己帰属は分離可能である

arXiv cs.AI / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMにおける有害な心の帰属（mind-attribution）を低減する安全性の微調整が、それに関連する心の理論（ToM）といった社会認知能力も損なうかどうかを検討する。
安全性のアブレーションと機械論的／表象の類似性分析を用いて、著者らは自己が向けられた、あるいは人工物に向けられた心の帰属が、行動面および機械論的な側面の両方で、ToM能力とは切り離し可能であることを見出す。
その結果、安全性の微調整によってモデルが精神状態の帰属の仕方を変えても、必ずしもToMの有能さ（コンピテンス）を失うわけではないことが示唆される。
ただし本研究はあわせて、安全性の微調整が、人間のベースラインに比べて非人間の動物に対して心を過小に帰属するバイアスを生み、さらに「霊的な信念」を示す傾向を低下させることも報告している。

要旨: 大規模言語モデル（LLM）における安全性の微調整（safety fine-tuning）は、自らの意識を主張したり、感情を経験していると述べたりするなど、潜在的に有害な心の帰属（mind-attribution）の形を抑制しようとします。本研究では、心の帰属傾向を抑制することによって、心の理論（Theory of Mind: ToM）といった密接に関連する社会認知能力が低下するかどうかを調べます。安全性のアブレーションと、表現の類似性に関するメカニズム解析を通じて、LLMが自分自身や技術的な人工物に対して行う心の帰属は、ToM能力とは行動学的にも機構的にも切り離して識別できることを示します。にもかかわらず、安全性で微調整されたモデルは、人間の基準と比べて非人間の動物に対する心の帰属を過小評価する傾向があり、非人間の心の分布とその性質に関する広く共有された見解を抑制して霊性（spiritual belief）を示す可能性が低くなります。