幻覚の現象学

arXiv cs.AI / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論は、言語モデルの幻覚は不確実性を出力生成に統合することの失敗に起因するものであり、不確実性を検出できないことに由来するものではないと主張している。
  • 不確実な入力は高次元の領域を占める。たとえ不確実性を検出できても、その信号は出力層へ弱く結合するため、幾何学的には増幅される一方で、感度が低い部分空間では機能的には沈黙している。
  • トポロジー的分析は、不確実性の表現が統一的な拒否状態へ収束するのではなく、断片化することを示しており、勾配プローブとフィッシャー・プローブは、不確実性方向の感度が崩壊していることを示している。
  • クロスエントロピー訓練は拒否を促すインセンティブを提供せず、確信のある予測を報いるため、連想的なメカニズムが断片化した活性化を増幅し、内部の不確実性にもかかわらずモデルを出力へとコミットさせる;因果介入は、不確実性がロジットと結びつく場合に拒否を回復できる。

要旨: 我々は、言語モデルが幻覚を起こすのは不確実性を検出できないからではなく、それを出力生成に統合できないことが原因であることを示す。アーキテクチャを横断して、不確実な入力は信頼性を持って特定され、事実入力の固有の次元性の2-3\timesに相当する高次元領域を占有する。しかし、この内部信号は出力層と弱く結合しており、不確実性は感度の低いサブ空間へと移動し、幾何学的には増幅される一方で機能的には沈黙する。トポロジー分析は、不確実性の表現が統一された棄却状態へ収束するのではなく断片化することを示す。一方、勾配とフィッシャー・プローブは不確実性方向に沿った感度の崩壊を明らかにする。クロスエントロピー訓練は棄却のためのアトラクターを提供せず、確信した予測を一様に報酬するため、連想的メカニズムはこれらの断片化した活性を増幅して、内部で検出されても残留結合が確定的な出力を強制するまで拡大する。因果的介入は、不確実性がロジットに直接結びつくとき拒否を回復させることでこの説明を裏付ける。