幻覚(ハルシネーション)盆地:LLMの幻覚を理解し制御するための動的フレームワーク
arXiv cs.CL / 2026/4/7
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、LLMの幻覚を単一の普遍的メカニズムではなく、タスク依存の潜在空間における「盆地(basin)」構造の結果として説明する、幾何学的な動的システムの枠組みを提案する。
- 複数のオープンソースモデルに対して、自己回帰的な隠れ状態の軌跡を用いた実験を行うことで、分離可能性がタスクによって変化することを示す。事実(ファクトイド)タスクではより明確な盆地分離が見られる一方、要約や誤概念(ミスコンセプション)を多く含むタスクでは安定性が低く、盆地の重なりが大きくなる。
- 著者らは観測された挙動をタスク複雑性および複数盆地に関する定理によって形式化し、L層トランスフォーマにおいて盆地構造が層をまたいでどのように現れるかを分析する。
- モデルの再訓練を必要とせずに、幾何学を意識した操縦(steering)によって幻覚確率を低減できることを実証し、潜在空間の幾何に基づく制御アプローチを示唆する。


