オーバーライド・ギャップ:ハイパーネットワークによる即時LLM適応における知識競合失敗のマグニチュード的説明
arXiv cs.LG / 2026/4/28
📰 ニュースModels & Research
要点
- Doc-to-LoRAのようなハイパーネットワークによる即時適応は1回のフォワードパスで文書をLLMの重みに内包できますが、文書が事前学習知識と矛盾するケースでは系統的に性能が崩れ、最深部の事実で精度が46.4%まで低下します。
- 本論文は、この失敗は表現能力の限界ではないとし、ハイパーネットワークが正しい層を狙っている一方で、アダプタの「マージン」が文書間でほぼ一定であるのに対し、事前学習側のマージンは学習頻度に応じて増大するため、強い事前知識の競合では構造的に負けてしまうと説明します。
- 失敗は、矛盾する事実に対するベースモデルの確信度(対数尤度)と相関すると予測されます。194件の競合を事前知識の強さで並べ替えると、弱い先行問題では68%だった精度が強い先行問題では16%にまで落ち込み、52ポイント差が生じます。
- 解決策は「振幅(amplitude)」に焦点を当て、学習なしで対処する2手法を提案します。Selective Layer Boostingはアダプタの高ノルム層をスケールし、Conflict-Aware Internalizationはベースモデルが確信している場合にのみブーストを行います。
- これらにより、深い競合における精度はGemma-2Bで46.4%から71.0%へ、Mistral-7Bで53.6%から72.5%へ改善し、新規知識の想起も維持されます。さらにパラメータ空間のみで動作し、媒体的な競合ではretrieval-augmented generationより18ポイント上回ります。加えて、先行度付き競合を個別に評価できるKID-Bench(489問)を公開します。



