Transformer表現への幻覚シグナルの弱教師あり蒸留

arXiv cs.LG / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、幻覚検出のための教師信号をトランスフォーマ内部の表現へ蒸留し、推論時には隠れ活性のみから幻覚を検出できるようにすることで、デプロイ時の外部検証(検索、正解、またはジャッジモデル)を回避することを提案する。
  • 人手による注釈なしで、LLM-as-judgeにより生成応答を根拠あり(grounded)か幻覚(hallucinated)かにラベル付けする弱教師ありラベリング枠組みを導入し、具体的には部分文字列マッチング、文埋め込みによる類似度、そしてLLM-as-judgeを用いる。そのうえで、SQuAD v2からLLaMA-2-7Bの生成と各層の隠れ状態を用いて、15,000例のデータセットを構築する。
  • 収集した隠れ状態に対して、5つの層/射影ベースのプロービングモデルを直接学習させる。ここで根拠シグナルは訓練時の監督としてのみ扱い、幻覚シグナルが表現に内在化できるかを検証する。
  • 実験結果では、トランスフォーマベースのプローブが最良の識別性能を示すことが分かり、とりわけ特定のアーキテクチャ(M2およびM3)が交差検証指標と保持したテストセットの両方で最高の性能を示した。
  • 本手法はレイテンシも評価しており、(バッチ処理および単一サンプルの両方で)ミリ秒オーダーのプローブオーバーヘッドであること、またエンドツーエンドの生成+プローブのスループットへの影響が最小であることを示し、実運用可能性が示唆される。

要旨: 大規模言語モデル(LLM)に対する既存の幻覚検出手法は、推論時に外部検証(gold解答、検索システム、または補助ジャッジモデル)を必要とします。そこで本研究では、この外部の監督を代わりに、学習中にモデル自身の表現へと蒸留できるのかどうかを問い、推論時には内部の活性だけから幻覚検出が可能になることを目指します。
3つの補完的なグラウンディング信号――部分文字列の一致、文埋め込みの類似度、そしてLLMを判定者(judge)として――を組み合わせる弱い監督フレームワークを導入します。この枠組みにより、人手による注釈なしで生成応答を「根拠あり」または「幻覚」とラベル付けします。これを用いて、SQuAD v2 から15000サンプルのデータセットを構築します(10500の学習/開発サンプルと、別の5000サンプルのテストセット)。各例は、LLaMA-2-7Bが生成した解答と、その全層の隠れ状態(per-layer hidden states)および構造化された幻覚ラベルを対応付けています。
次に、5つのプロービング分類器――ProbeMLP (M0)、LayerWiseMLP (M1)、CrossLayerTransformer (M2)、HierarchicalTransformer (M3)、CrossLayerAttentionTransformerV2 (M4)――を、これらの隠れ状態に直接学習させます。外部のグラウンディング信号は学習時の監督としてのみ扱います。中心となる仮説は、幻覚検出の信号をトランスフォーマーの表現へと蒸留でき、推論時には外部の検証なしに内部から検出が可能になる、というものです。
結果はこの仮説を支持します。トランスフォーマーに基づくプローブは最も強い識別性能を示し、M2が5-fold平均のAUC/F1で最良となります。またM3は、単一foldの検証と、保持したテスト評価の両方で最良となります。さらに推論効率をベンチマークしました。プローブのレイテンシは(バッチでは)0.15〜5.62 ms、(単一サンプルでは)1.55〜6.66 msです。一方で、生成(end-to-end)にプローブのスループットを加えた全体での処理は、およそ0.231 queries per secondのままであり、実運用上のオーバーヘッドは無視できることを示しています。