大規模言語モデルにおけるH-Node攻撃と防御

arXiv cs.AI / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

論文は、LLM内部の隠れ状態の個々の次元に着目し、幻覚（hallucination）表現を「Hallucination Nodes（H-Nodes）」として特定・活用・防御する機構的フレームワーク「H-Node Adversarial Noise Cancellation（H-Node ANC）」を提案した。
最終トークンの隠れ状態から幻覚信号を局所化するためにロジスティック回帰プローブを学習し、4つの異なるアーキテクチャでプローブAUCが0.90に達することを示した。
ホワイトボックスの推論時アドバーサリアル攻撃では、リアルタイムのforward hookでH-Node次元を増幅し、選択性3.02xを得つつ、防御側からの可視性を10%未満に抑えると報告している。
適応的ANC防御では、確信度（confidence）に重み付けしたキャンセルでH-Node過剰を抑制し、grounded activation driftを静的キャンセルより33〜42%低減できるほか、反復的なターゲット再ランク付けにより単一パス基準から最大0.69の頑健性回復を示した。
OPT-125M、Phi-3-mini-4k-instruct、LLaMA-3-8B-Instruct、Mistral-7B-Instruct-v0.3で検証し、perplexityへの影響は<5%、MMLU低下は最大3%で、推論能力への実害が小さいとしている。

Abstract

本稿では、H-Node Adversarial Noise Cancellation（H-Node ANC）を提示する。これは、トランスフォーマ型の大規模言語モデル（LLM）における幻覚表現（hallucination representations）を、個々の隠れ状態次元（hidden-state dimensions）のレベルで識別し、それを活用し、そして防御するメカニスティックな枠組みである。最後トークンの隠れ状態で学習したロジスティック回帰のプローブにより、幻覚の信号が分散の大きい少数の次元の集合へ局在化される。これらは幻覚ノード（Hallucination Nodes、H-Nodes）と呼ばれ、4つのアーキテクチャすべてでプローブAUCは0.90に到達する。ホワイトボックスの敵対的攻撃は、推論時にリアルタイムのフォワードフックを通じてこれらの次元を増幅し、守る側（defender）に対する可視性を10%未満に抑えつつ選択性は3.02xを達成する。適応的ANC防御は、信頼度に重み付けされたキャンセルによって、パスインパスでのH-Node過剰を抑制し、静的キャンセルに比べて実体化（grounded）された活性のドリフトを33-42%低減する。さらに、連続する複数パスにわたってキャンセル対象を再ランキングする動的反復拡張により、単一パスのベースラインが8%であるのに対し、最大0.69まで頑健性を回復できる。これらすべての貢献は、OPT-125M、Phi-3-mini-4k-instruct、LLaMA-3-8B-Instruct、Mistral-7B-Instruct-v0.3（125M-8Bのパラメータ）で検証される。パープレキシティへの影響は外科的で（<5%）、MMLUの劣化は最大3%にとどまり、防御が一般的な推論能力を損なわないことが確認される。