幻覚(ハルシネーション)盆地:LLMの幻覚を理解し制御するための動的フレームワーク

arXiv cs.CL / 2026/4/7

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、LLMの幻覚を単一の普遍的メカニズムではなく、タスク依存の潜在空間における「盆地(basin)」構造の結果として説明する、幾何学的な動的システムの枠組みを提案する。
  • 複数のオープンソースモデルに対して、自己回帰的な隠れ状態の軌跡を用いた実験を行うことで、分離可能性がタスクによって変化することを示す。事実(ファクトイド)タスクではより明確な盆地分離が見られる一方、要約や誤概念(ミスコンセプション)を多く含むタスクでは安定性が低く、盆地の重なりが大きくなる。
  • 著者らは観測された挙動をタスク複雑性および複数盆地に関する定理によって形式化し、L層トランスフォーマにおいて盆地構造が層をまたいでどのように現れるかを分析する。
  • モデルの再訓練を必要とせずに、幾何学を意識した操縦(steering)によって幻覚確率を低減できることを実証し、潜在空間の幾何に基づく制御アプローチを示唆する。

Abstract

大規模言語モデル(LLM)は幻覚(hallucinate)します。つまり、事実としては誤っているにもかかわらず、流暢な出力を生成するのです。私たちは、潜在空間におけるタスク依存のバシン(basin)構造から幻覚が生じることを説明する、幾何学的動的システムの枠組みを提示します。複数のオープンソースモデルとベンチマークにわたる自己回帰的な隠れ状態の軌跡を用いて、分離可能性は普遍的というよりも強くタスク依存であることを見いだします。事実断片(factoid)の設定では、より明瞭なバシン分離が見られる場合がある一方で、要約(summarization)や誤概念(misconception)を多く含む設定では、典型的に安定性が低く、互いに重なり合うことが多いです。私たちは、この挙動をタスク複雑性と多バシン定理(multi-basin theorems)によって形式化し、L層トランスフォーマにおけるバシンの出現を特徴づけ、幾何学に配慮したステアリング(steering)によって再学習なしで幻覚の確率を低減できることを示します。