幻覚を暴く:因果グラフ・アテンションの観点から見る大規模言語モデルにおける事実の信頼性

arXiv cs.CL / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模言語モデルにおける事実の幻覚を、内部トランスフォーマのアテンションが裏付けのない出力にどのように寄与しているかを分析することで扱う。
  • 自己アテンションの重みと勾配ベースの影響度スコアを用いてトークン単位のグラフを構築する、因果グラフ・アテンションネットワーク(GCAN)を提案する。これにより事実に関する依存関係を測定する。
  • モデルの事実の信頼性に対して、各トークンがどれほど因果的に寄与しているかを定量化する Causal Contribution Score(CCS)を導入する。
  • 生成時には、事実アンカー付きグラフの再重み付け層を用いて、幻覚を生じやすいノードの重みを動的に下げる。
  • TruthfulQA および HotpotQA での実験では、ベースラインの検索拡張生成(RAG)モデルに比べて、幻覚率が 27.8% 減少し、事実正確性が 16.4% 改善したと報告している。