H-Node Attack and Defense in Large Language Models

arXiv cs.AI / 3/30/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

Key Points

論文は、LLM内部の隠れ状態の個々の次元に着目し、幻覚（hallucination）表現を「Hallucination Nodes（H-Nodes）」として特定・活用・防御する機構的フレームワーク「H-Node Adversarial Noise Cancellation（H-Node ANC）」を提案した。
最終トークンの隠れ状態から幻覚信号を局所化するためにロジスティック回帰プローブを学習し、4つの異なるアーキテクチャでプローブAUCが0.90に達することを示した。
ホワイトボックスの推論時アドバーサリアル攻撃では、リアルタイムのforward hookでH-Node次元を増幅し、選択性3.02xを得つつ、防御側からの可視性を10%未満に抑えると報告している。
適応的ANC防御では、確信度（confidence）に重み付けしたキャンセルでH-Node過剰を抑制し、grounded activation driftを静的キャンセルより33〜42%低減できるほか、反復的なターゲット再ランク付けにより単一パス基準から最大0.69の頑健性回復を示した。
OPT-125M、Phi-3-mini-4k-instruct、LLaMA-3-8B-Instruct、Mistral-7B-Instruct-v0.3で検証し、perplexityへの影響は<5%、MMLU低下は最大3%で、推論能力への実害が小さいとしている。

Abstract

We present H-Node Adversarial Noise Cancellation (H-Node ANC), a mechanistic framework that identifies, exploits, and defends hallucination representations in transformer-based large language models (LLMs) at the level of individual hidden-state dimensions. A logistic regression probe trained on last-token hidden states localizes hallucination signal to a small set of high-variance dimensions -- termed Hallucination Nodes (H-Nodes) -- with probe AUC reaching 0.90 across four architectures. A white-box adversarial attack amplifies these dimensions at inference time via a real-time forward hook, achieving a selectivity of 3.02x with less than 10% visibility to the defender. Adaptive ANC defense suppresses H-Node excess in-pass using confidence-weighted cancellation, reducing grounded activation drift by 33-42% over static cancellation. A dynamic iterative extension that re-ranks cancellation targets across successive passes recovers up to 0.69 robustness from a single-pass baseline of 8%. All contributions are validated on OPT-125M, Phi-3-mini-4k-instruct, LLaMA-3-8B-Instruct, and Mistral-7B-Instruct-v0.3 (125M-8B parameters). Perplexity impact is surgical (<5%) and MMLU degradation is at most 3%, confirming that the defense does not impair general reasoning capability.