大規模言語モデルにおける幻覚抑制のための適応的活性化取消

arXiv cs.AI / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

Adaptive Activation Cancellation（AAC）は、幻覚関連の活性化をトランスフォーマー残差ストリーム内の構造化干渉として扱い、外部知識・ファインチューニング・追加推論パスなしでそれらを抑制する推論時フレームワークです。
H-Nodesは層ごとの線形プローブによって特定され、自己回帰生成中に信頼度重み付きのフォワードフックを適用して、リアルタイムにこれらのノードを外科的に抑制します。
OPT-125M、Phi-3-mini、LLaMA 3-8Bでの評価は、リアルタイムフックがTruthfulQAおよびHaluEvalの各スケールで事実性を一貫して改善する唯一の介入であることを示しており、WikiText-103のパープレキシティやMMLUのような標準的な言語モデリング指標の低下を生じさせません。
LLaMA 3-8Bでは、AACは生成レベルで控えめな向上をもたらし、ベースラインよりもプローブ空間の選択性が高いことを示します。これは、ターゲットを絞ったニューロンレベルの抑制が事実性を改善しつつ、全体的なモデル能力を維持できることを示しています。

要旨: 大規模言語モデルは、しばしば流暢でありながら事実的には不正確なテキストを生成します。われわれは Adaptive Activation Cancellation（AAC）を提案します。これは幻覚に関連するニューロン活性をトランスフォーマー残差ストリーム内の構造化干渉として扱い、信号処理の古典的な適応ノイズキャンセリングへの明確な類推を引くリアルタイム推論時フレームワークです。このフレームワークは層ごとの線形プロービングによって幻覚ノード（H-Nodes）を識別し、オートレグレシブ生成中に信頼度重み付きフォワードフックを用いてリアルタイムにそれらを抑制します。外部知識・ファインチューニング・追加の推論パスは不要です。TruthfulQAとHaluEvalでOPT-125M、Phi-3-mini、LLaMA 3-8Bを評価したところ、リアルタイムフックは3つのスケールすべてで下流の精度を一貫して改善する唯一の介入です。重要なのは、この方法が厳密に「外科的」であるという点で、WikiText-103のパープレキシティとMMLU推論精度は、3つのモデル規模すべてにおいて厳密に0.0%の劣化を保ちます。これは、AACを流暢さや一般的能力を事実性の向上と引き換えにする介入と区別する特性です。LLaMA 3-8Bのスケールでは、フックは生成レベルの正の向上も生み出し（MC1 +0.04; MC2 +0.003; Token-F1 +0.003）、ITIベースラインよりプローブ空間の選択性を5.94倍 - 3.5倍高くすることを示しています。これにより、ターゲットを絞ったニューロンレベルの抑制が事実性を同時に改善し、モデルの能力を保持できることが実証されました。

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

note

AI達の革命

note

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

note

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒

note

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

note

大規模言語モデルにおける幻覚抑制のための適応的活性化取消

要点

関連記事

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

AI達の革命

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

AI達の革命

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

『AIと意識』諸葛亮 孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話 その肆拾柒

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒