AI Navigate

大規模言語モデルにおける幻覚抑制のための適応的活性化取消

arXiv cs.AI / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • Adaptive Activation Cancellation(AAC)は、幻覚関連の活性化をトランスフォーマー残差ストリーム内の構造化干渉として扱い、外部知識・ファインチューニング・追加推論パスなしでそれらを抑制する推論時フレームワークです。
  • H-Nodesは層ごとの線形プローブによって特定され、自己回帰生成中に信頼度重み付きのフォワードフックを適用して、リアルタイムにこれらのノードを外科的に抑制します。
  • OPT-125M、Phi-3-mini、LLaMA 3-8Bでの評価は、リアルタイムフックがTruthfulQAおよびHaluEvalの各スケールで事実性を一貫して改善する唯一の介入であることを示しており、WikiText-103のパープレキシティやMMLUのような標準的な言語モデリング指標の低下を生じさせません。
  • LLaMA 3-8Bでは、AACは生成レベルで控えめな向上をもたらし、ベースラインよりもプローブ空間の選択性が高いことを示します。これは、ターゲットを絞ったニューロンレベルの抑制が事実性を改善しつつ、全体的なモデル能力を維持できることを示しています。
要旨: 大規模言語モデルは、しばしば流暢でありながら事実的には不正確なテキストを生成します。われわれは Adaptive Activation Cancellation(AAC)を提案します。これは幻覚に関連するニューロン活性をトランスフォーマー残差ストリーム内の構造化干渉として扱い、信号処理の古典的な適応ノイズキャンセリングへの明確な類推を引くリアルタイム推論時フレームワークです。 このフレームワークは層ごとの線形プロービングによって幻覚ノード(H-Nodes)を識別し、オートレグレシブ生成中に信頼度重み付きフォワードフックを用いてリアルタイムにそれらを抑制します。外部知識・ファインチューニング・追加の推論パスは不要です。TruthfulQAとHaluEvalでOPT-125M、Phi-3-mini、LLaMA 3-8Bを評価したところ、リアルタイムフックは3つのスケールすべてで下流の精度を一貫して改善する唯一の介入です。重要なのは、この方法が厳密に「外科的」であるという点で、WikiText-103のパープレキシティとMMLU推論精度は、3つのモデル規模すべてにおいて厳密に0.0%の劣化を保ちます。これは、AACを流暢さや一般的能力を事実性の向上と引き換えにする介入と区別する特性です。LLaMA 3-8Bのスケールでは、フックは生成レベルの正の向上も生み出し(MC1 +0.04; MC2 +0.003; Token-F1 +0.003)、ITIベースラインよりプローブ空間の選択性を5.94倍 - 3.5倍高くすることを示しています。これにより、ターゲットを絞ったニューロンレベルの抑制が事実性を同時に改善し、モデルの能力を保持できることが実証されました。