CausalGaze:大規模言語モデルにおける反実仮想グラフ介入で幻覚を解明する
arXiv cs.LG / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMの内部活性を構造因果モデル(SCM)を用いた動的な因果グラフとして扱う、幻覚検出フレームワーク「CausalGaze」を提案する。
- 静的な内部シグナルから幻覚を受動的に分類するのではなく、CausalGazeは反実仮想グラフ介入によって、因果的推論の経路と偶発的なノイズや見かけの相関を分離する。
- 4つのデータセットと3つの一般的なLLMにわたる実験により、一貫した改善が示されており、TruthfulQAでは最先端のベースラインに対してAUROCが5.2%超向上している。
- 本研究は、生成の背後にある因果メカニズムをより検査可能にすることで、幻覚検出性能と解釈可能性の双方の向上を目指す。




