大規模言語モデルにおける幻覚検出のための内部シグナルとしての注意サンク
arXiv cs.CL / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模言語モデルのための幻覚検出手法であるSinkProbeを提案する。これは生成中に過度に大きな注意を受ける「注意サンク(attention sinks)」のトークンを、計算が入力に基づく根拠から逸れたことの指標として用いる。
- 幻覚は、文脈に根ざした分散的な注意から、圧縮され先行情報に支配される処理への移行と相関する、と主張する。
- サンクのスコアは注意マップからのみ得られるが、著者らは分類器が、対応する値ベクトルのノルムが大きいサンクに依存しやすいことを見出し、信号を基底となる表現ダイナミクスに結びつける。
- 本研究はさらに、従来の幻覚検出手法がサンクスコアと数学的に関連づけられることを示し、従来手法が暗黙に注意サンクの挙動に依存している可能性を示唆する。
- SinkProbeは、一般的な幻覚検出データセットおよび複数のLLMにおいて最先端の性能を達成し、注意サンク機構を強力で理論的に裏付けられたシグナルとして位置づける。




