幻覚の現象学

arXiv cs.AI / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論は、言語モデルの幻覚は不確実性を出力生成に統合することの失敗に起因するものであり、不確実性を検出できないことに由来するものではないと主張している。
不確実な入力は高次元の領域を占める。たとえ不確実性を検出できても、その信号は出力層へ弱く結合するため、幾何学的には増幅される一方で、感度が低い部分空間では機能的には沈黙している。
トポロジー的分析は、不確実性の表現が統一的な拒否状態へ収束するのではなく、断片化することを示しており、勾配プローブとフィッシャー・プローブは、不確実性方向の感度が崩壊していることを示している。
クロスエントロピー訓練は拒否を促すインセンティブを提供せず、確信のある予測を報いるため、連想的なメカニズムが断片化した活性化を増幅し、内部の不確実性にもかかわらずモデルを出力へとコミットさせる；因果介入は、不確実性がロジットと結びつく場合に拒否を回復できる。

要旨: 我々は、言語モデルが幻覚を起こすのは不確実性を検出できないからではなく、それを出力生成に統合できないことが原因であることを示す。アーキテクチャを横断して、不確実な入力は信頼性を持って特定され、事実入力の固有の次元性の2-3 $\times$ に相当する高次元領域を占有する。しかし、この内部信号は出力層と弱く結合しており、不確実性は感度の低いサブ空間へと移動し、幾何学的には増幅される一方で機能的には沈黙する。トポロジー分析は、不確実性の表現が統一された棄却状態へ収束するのではなく断片化することを示す。一方、勾配とフィッシャー・プローブは不確実性方向に沿った感度の崩壊を明らかにする。クロスエントロピー訓練は棄却のためのアトラクターを提供せず、確信した予測を一様に報酬するため、連想的メカニズムはこれらの断片化した活性を増幅して、内部で検出されても残留結合が確定的な出力を強制するまで拡大する。因果的介入は、不確実性がロジットに直接結びつくとき拒否を回復させることでこの説明を裏付ける。

[野球の予測モデル] 次の1球で何が起こるのかを予測したい

Qiita

なんと397BのAIモデルをiPhoneで動かすことに成功

GIGAZINE

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

Innovatopia

幻覚の現象学

要点

関連記事

[野球の予測モデル] 次の1球で何が起こるのかを予測したい

なんと397BのAIモデルをiPhoneで動かすことに成功

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer