HalluSAE:スパース自己エンコーダーで大規模言語モデルの幻覚(ハルシネーション)を検出する
arXiv cs.CL / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模言語モデルのハルシネーション検出に向けて、ハルシネーションを静的な誤り信号ではなく潜在表現ダイナミクスの「相転移」として捉える HalluSAE を提案する。
- HalluSAE は生成過程をポテンシャルエネルギー地形上の軌跡としてモデル化し、高エネルギーのスパース特徴に結び付く危険な遷移ゾーンを特定して、事実誤りに焦点を当てる。
- 実装は3段階からなり、(1) スパース自己エンコーダーと幾何学的なポテンシャルエネルギー指標で「相ゾーン」を局所化し、(2) 対比的ロジット帰属でハルシネーション関連のスパース特徴を属性付けし、(3) 分離された特徴に対する線形プローブで因果的な検出を行う。
- 実験では Gemma-2-9B を用い、ハルシネーション検出で最先端(SOTA)性能を達成したと報告されており、検出精度と事実誤りの解釈可能性の向上が示唆される。




