CoSToM:大規模言語モデルにおける本質的な心の理論(ToM)整合のための因果志向ステアリング
arXiv cs.CL / 2026/4/14
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、現在のLLMのToM(心の理論)性能はしばしばプロンプトによる足場(scaffolding)に依存しており、複雑でタスク固有の状況へは十分に一般化しない可能性があると主張している。その結果、内部の知識と外部の振る舞いの間に不一致があるのではないかとしている。
- ToM整合のためのCoSToM(Causal-oriented Steering for ToM alignment)を提案する。これは、因果トレーシングを用いてモデル内部でToMのセマンティクスがどのように表現されているかを特定し、そのうえで、ToMにとって重要な層に対して狙いを定めたアクティベーション・ステアリングを行うことで直接介入する手法である。
- 因果トレーシングによって内部の特徴分布を対応付けることで、この方法は単なる機構的解釈から、振る舞いを安定化させるための能動的な整合へと移行することを目指している。
- 本論文で報告された実験では、CoSToMが人間らしい社会的推論を改善し、下流の対話品質を高めることが示されている。
- 全体として本研究は、因果的な内部介入によって外部から観測可能なToMのような振る舞いを安定化させることで、「本質的認知(intrinsic cognition)」の整合を行うアプローチを提案している。




