CausalGaze:大規模言語モデルにおける反実仮想グラフ介入で幻覚を解明する

arXiv cs.LG / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMの内部活性を構造因果モデル(SCM)を用いた動的な因果グラフとして扱う、幻覚検出フレームワーク「CausalGaze」を提案する。
  • 静的な内部シグナルから幻覚を受動的に分類するのではなく、CausalGazeは反実仮想グラフ介入によって、因果的推論の経路と偶発的なノイズや見かけの相関を分離する。
  • 4つのデータセットと3つの一般的なLLMにわたる実験により、一貫した改善が示されており、TruthfulQAでは最先端のベースラインに対してAUROCが5.2%超向上している。
  • 本研究は、生成の背後にある因果メカニズムをより検査可能にすることで、幻覚検出性能と解釈可能性の双方の向上を目指す。

Abstract

大規模言語モデル(LLMs)による画期的な進歩にもかかわらず、幻覚は高リスクな領域への導入において依然として重大なボトルネックである。既存の分類に基づく手法は主に、内部状態から得られる静的で受動的なシグナルに依存しており、しばしばノイズや見かけ上の相関を捉える一方で、根底にある因果メカニズムを見落としている。 この制約に対処するため、我々は、構造因果モデル(SCMs)に基づく新しい幻覚検出フレームワークであるCausalGazeを導入することで、受動的な観察から能動的な介入へとパラダイムを転換する。CausalGazeは、LLMの内部状態を動的な因果グラフとしてモデル化し、反実仮想的な介入を用いることで、偶発的なノイズから因果推論の経路を切り離し、その結果、モデルの解釈可能性を高める。4つのデータセットと、広く用いられている3つのLLMにわたる大規模な実験により、特にTruthfulQAデータセットにおいて最先端のベースラインと比較してAUROCが5.2\%超改善するなど、CausalGazeの有効性が示される。