CoSToM:大規模言語モデルにおける本質的な心の理論(ToM)整合のための因果志向ステアリング

arXiv cs.CL / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、現在のLLMのToM(心の理論)性能はしばしばプロンプトによる足場(scaffolding)に依存しており、複雑でタスク固有の状況へは十分に一般化しない可能性があると主張している。その結果、内部の知識と外部の振る舞いの間に不一致があるのではないかとしている。
  • ToM整合のためのCoSToM(Causal-oriented Steering for ToM alignment)を提案する。これは、因果トレーシングを用いてモデル内部でToMのセマンティクスがどのように表現されているかを特定し、そのうえで、ToMにとって重要な層に対して狙いを定めたアクティベーション・ステアリングを行うことで直接介入する手法である。
  • 因果トレーシングによって内部の特徴分布を対応付けることで、この方法は単なる機構的解釈から、振る舞いを安定化させるための能動的な整合へと移行することを目指している。
  • 本論文で報告された実験では、CoSToMが人間らしい社会的推論を改善し、下流の対話品質を高めることが示されている。
  • 全体として本研究は、因果的な内部介入によって外部から観測可能なToMのような振る舞いを安定化させることで、「本質的認知(intrinsic cognition)」の整合を行うアプローチを提案している。

Abstract

Theory of Mind(ToM、他者に対して心的状態を帰属させる能力)は、社会的知能の特徴である。大規模言語モデル(LLM)は標準的なToMベンチマークにおいて有望な性能を示す一方で、複雑な、タスク固有の状況に対してはしばしばうまく一般化できず、推論を模倣するためにプロンプトの足場(prompt scaffolding)に大きく依存していることが観察される。内部知識と外部挙動の間にある決定的な不整合は、根本的な疑問を投げかける。すなわち、LLMは本当に固有の認知(intrinsic cognition)を持っているのか、そしてこの内部知識を安定した高品質な振る舞いとして外部に実現できるのか、という問いである。これに答えるために我々は、CoSToM(Causal-oriented Steering for ToM alignment、ToMアラインメントのための因果指向ステアリング)を提案する。これは、機構論的解釈から能動的介入へと移行する枠組みである。まず因果トレーシングを用いてToM特徴の内部分布を対応付け、基本的なToMセマンティクスを符号化する上での内部層の特性を経験的に明らかにする。さらに、この洞察に基づき、これらのToMにクリティカルな層に対する狙いを定めた活性化のステアリング(targeted activation steering)によって、軽量なアラインメント枠組みを実装する。実験の結果、CoSToMは人間らしい社会的推論能力および下流の対話品質を大幅に向上させることが示される。