オーバーライド・ギャップ：ハイパーネットワークによる即時LLM適応における知識競合失敗のマグニチュード的説明

arXiv cs.LG / 2026/4/28

📰 ニュースModels & Research

共有:

要点

Doc-to-LoRAのようなハイパーネットワークによる即時適応は1回のフォワードパスで文書をLLMの重みに内包できますが、文書が事前学習知識と矛盾するケースでは系統的に性能が崩れ、最深部の事実で精度が46.4%まで低下します。
本論文は、この失敗は表現能力の限界ではないとし、ハイパーネットワークが正しい層を狙っている一方で、アダプタの「マージン」が文書間でほぼ一定であるのに対し、事前学習側のマージンは学習頻度に応じて増大するため、強い事前知識の競合では構造的に負けてしまうと説明します。
失敗は、矛盾する事実に対するベースモデルの確信度（対数尤度）と相関すると予測されます。194件の競合を事前知識の強さで並べ替えると、弱い先行問題では68%だった精度が強い先行問題では16%にまで落ち込み、52ポイント差が生じます。
解決策は「振幅（amplitude）」に焦点を当て、学習なしで対処する2手法を提案します。Selective Layer Boostingはアダプタの高ノルム層をスケールし、Conflict-Aware Internalizationはベースモデルが確信している場合にのみブーストを行います。
これらにより、深い競合における精度はGemma-2Bで46.4%から71.0%へ、Mistral-7Bで53.6%から72.5%へ改善し、新規知識の想起も維持されます。さらにパラメータ空間のみで動作し、媒体的な競合ではretrieval-augmented generationより18ポイント上回ります。加えて、先行度付き競合を個別に評価できるKID-Bench（489問）を公開します。

Abstract

Doc-to-LoRA のようなハイパーネットワークベースの手法は、1回のフォワードパスで文書を LLM の重みへ内部化できますが、衝突に対しては体系的に失敗します。具体的には、文書が事前学習知識と矛盾するとき、最も深い事実に対する精度が 46.4% まで崩壊します。我々は、この失敗が表現の問題というより「大きさ（マグニチュード）」の問題であることを示します。ハイパーネットワークはすでに適切な層を狙っていますが、そのアダプタのマージンは文書間でほぼ一定である一方、学習頻度が高まるにつれて事前学習マージンは増大します。そのため、深い衝突は構成上負けてしまいます。本研究の説明により、失敗は事前の強さに追随するはずだと予測されます。矛盾する事実に対するベースモデルの対数確率で 194 件の衝突を並べ替えると、ベースライン精度は弱い事前（プライヤー）の質問では 68% から、強い事前では 16% へと低下し、52 パーセンテージポイントの差になります。処方箋は振幅（amplitude）です。Selective Layer Boosting は、アダプタをその上位ノルム（top-norm）層でスケールし、Conflict-Aware Internalization はベースモデルが確信している場合にのみブースティングを発動します。これらはいずれも学習不要（training-free）です。両者を併用すると、深い衝突の精度が Gemma-2B で 46.4% から 71.0% へ、Mistral-7B で 53.6% から 72.5% へと向上し、新規知識の想起を維持しつつ、パラメータ空間のみで動作しているにもかかわらず、中程度の衝突においてバニラの検索拡張生成（retrieval-augmented generation）を 18 パーセンテージポイント上回ります。さらに我々は KID-Bench を公開します。これは 489 問からなるベンチマークで、新規想起、知識の横断的な組み合わせ、そして事前で格付けされた（prior-graded）衝突を切り分けます。