HalluSAE:スパース自己エンコーダーで大規模言語モデルの幻覚(ハルシネーション)を検出する

arXiv cs.CL / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模言語モデルのハルシネーション検出に向けて、ハルシネーションを静的な誤り信号ではなく潜在表現ダイナミクスの「相転移」として捉える HalluSAE を提案する。
  • HalluSAE は生成過程をポテンシャルエネルギー地形上の軌跡としてモデル化し、高エネルギーのスパース特徴に結び付く危険な遷移ゾーンを特定して、事実誤りに焦点を当てる。
  • 実装は3段階からなり、(1) スパース自己エンコーダーと幾何学的なポテンシャルエネルギー指標で「相ゾーン」を局所化し、(2) 対比的ロジット帰属でハルシネーション関連のスパース特徴を属性付けし、(3) 分離された特徴に対する線形プローブで因果的な検出を行う。
  • 実験では Gemma-2-9B を用い、ハルシネーション検出で最先端(SOTA)性能を達成したと報告されており、検出精度と事実誤りの解釈可能性の向上が示唆される。

Abstract

大規模言語モデル(LLM)は強力で広く採用されていますが、その実用上の影響は、よく知られた幻覚(ハルシネーション)現象によって限定されています。近年、幻覚検出手法は目覚ましい進歩を遂げていますが、その多くは、幻覚の動的な性質と、その背後にあるメカニズムを見落としていることがわかります。このギャップに対処するために、我々は相転移に着想を得た枠組みであるHalluSAEを提案します。これは、幻覚をモデルの潜在ダイナミクスにおける臨界的な転移としてモデル化します。生成過程を、ポテンシャルエネルギー地形を通る軌跡としてモデル化することで、HalluSAEは臨界遷移ゾーンを特定し、事実上の誤りを特定の高エネルギーの疎(スパース)特徴に帰属させます。我々のアプローチは3つの段階から構成されます:(1)疎オートエンコーダと幾何学的なポテンシャルエネルギー指標による、ポテンシャルエネルギーによって強化された相(フェーズ)ゾーンの局所化;(2)コントラストive logit attributionによる、幻覚に関連する疎特徴の帰属;(3)分離された特徴に対する線形プローブによる、プロービングベースの因果的幻覚検出。Gemma-2-9Bに対する大規模な実験により、HalluSAEが最先端の幻覚検出性能を達成することを示します。