H-Node Attack and Defense in Large Language Models
arXiv cs.AI / 3/30/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 論文は、LLM内部の隠れ状態の個々の次元に着目し、幻覚(hallucination)表現を「Hallucination Nodes(H-Nodes)」として特定・活用・防御する機構的フレームワーク「H-Node Adversarial Noise Cancellation(H-Node ANC)」を提案した。
- 最終トークンの隠れ状態から幻覚信号を局所化するためにロジスティック回帰プローブを学習し、4つの異なるアーキテクチャでプローブAUCが0.90に達することを示した。
- ホワイトボックスの推論時アドバーサリアル攻撃では、リアルタイムのforward hookでH-Node次元を増幅し、選択性3.02xを得つつ、防御側からの可視性を10%未満に抑えると報告している。
- 適応的ANC防御では、確信度(confidence)に重み付けしたキャンセルでH-Node過剰を抑制し、grounded activation driftを静的キャンセルより33〜42%低減できるほか、反復的なターゲット再ランク付けにより単一パス基準から最大0.69の頑健性回復を示した。
- OPT-125M、Phi-3-mini-4k-instruct、LLaMA-3-8B-Instruct、Mistral-7B-Instruct-v0.3で検証し、perplexityへの影響は<5%、MMLU低下は最大3%で、推論能力への実害が小さいとしている。




