大規模言語モデルにおける幻覚検出のための内部シグナルとしての注意サンク

arXiv cs.CL / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模言語モデルのための幻覚検出手法であるSinkProbeを提案する。これは生成中に過度に大きな注意を受ける「注意サンク（attention sinks）」のトークンを、計算が入力に基づく根拠から逸れたことの指標として用いる。
幻覚は、文脈に根ざした分散的な注意から、圧縮され先行情報に支配される処理への移行と相関する、と主張する。
サンクのスコアは注意マップからのみ得られるが、著者らは分類器が、対応する値ベクトルのノルムが大きいサンクに依存しやすいことを見出し、信号を基底となる表現ダイナミクスに結びつける。
本研究はさらに、従来の幻覚検出手法がサンクスコアと数学的に関連づけられることを示し、従来手法が暗黙に注意サンクの挙動に依存している可能性を示唆する。
SinkProbeは、一般的な幻覚検出データセットおよび複数のLLMにおいて最先端の性能を達成し、注意サンク機構を強力で理論的に裏付けられたシグナルとして位置づける。

Abstract

大規模言語モデルはしばしば幻覚（ハルシネーション）を示します。すなわち、入力文脈により裏付けられていない、または事実として誤っているにもかかわらず、流暢で自信に満ちた出力を生成することです。近年、幻覚検出のために注意（attention）マップから得られるさまざまな特徴量が検討されてきましたが、それらが利用している根本的なメカニズムはいまだ十分に理解されていません。本研究では、幻覚が注意サンク（attention sinks）と深く結び付いているという観察に基づく、幻覚検出手法SinkProbeを提案します。注意サンクとは、生成中に過度に大きな注意質量を蓄積するトークンであり、入力に基づく分散した注意から、圧縮され事前情報に支配された計算への遷移を示唆します。重要な点として、サンクスコアは注意マップのみに基づいて計算されるにもかかわらず、我々は、分類器が、関連するバリュー（value）ベクトルのノルムが大きいサンクを優先的に利用することを見出します。さらに、先行手法が暗黙的に注意サンクに依存していることを、サンクスコアとの数学的な関係を確立することで示します。本研究の知見は、理論に基づく新しい幻覚検出手法をもたらし、広く利用されているデータセットおよびLLMにわたって最先端の結果を達成します。