オーバーライド・ギャップ:ハイパーネットワークによる即時LLM適応における知識競合失敗のマグニチュード的説明

arXiv cs.LG / 2026/4/28

📰 ニュースModels & Research

要点

  • Doc-to-LoRAのようなハイパーネットワークによる即時適応は1回のフォワードパスで文書をLLMの重みに内包できますが、文書が事前学習知識と矛盾するケースでは系統的に性能が崩れ、最深部の事実で精度が46.4%まで低下します。
  • 本論文は、この失敗は表現能力の限界ではないとし、ハイパーネットワークが正しい層を狙っている一方で、アダプタの「マージン」が文書間でほぼ一定であるのに対し、事前学習側のマージンは学習頻度に応じて増大するため、強い事前知識の競合では構造的に負けてしまうと説明します。
  • 失敗は、矛盾する事実に対するベースモデルの確信度(対数尤度)と相関すると予測されます。194件の競合を事前知識の強さで並べ替えると、弱い先行問題では68%だった精度が強い先行問題では16%にまで落ち込み、52ポイント差が生じます。
  • 解決策は「振幅(amplitude)」に焦点を当て、学習なしで対処する2手法を提案します。Selective Layer Boostingはアダプタの高ノルム層をスケールし、Conflict-Aware Internalizationはベースモデルが確信している場合にのみブーストを行います。
  • これらにより、深い競合における精度はGemma-2Bで46.4%から71.0%へ、Mistral-7Bで53.6%から72.5%へ改善し、新規知識の想起も維持されます。さらにパラメータ空間のみで動作し、媒体的な競合ではretrieval-augmented generationより18ポイント上回ります。加えて、先行度付き競合を個別に評価できるKID-Bench(489問)を公開します。

Abstract

Doc-to-LoRA のようなハイパーネットワークベースの手法は、1回のフォワードパスで文書を LLM の重みへ内部化できますが、衝突に対しては体系的に失敗します。具体的には、文書が事前学習知識と矛盾するとき、最も深い事実に対する精度が 46.4% まで崩壊します。我々は、この失敗が表現の問題というより「大きさ(マグニチュード)」の問題であることを示します。ハイパーネットワークはすでに適切な層を狙っていますが、そのアダプタのマージンは文書間でほぼ一定である一方、学習頻度が高まるにつれて事前学習マージンは増大します。そのため、深い衝突は構成上負けてしまいます。本研究の説明により、失敗は事前の強さに追随するはずだと予測されます。矛盾する事実に対するベースモデルの対数確率で 194 件の衝突を並べ替えると、ベースライン精度は弱い事前(プライヤー)の質問では 68% から、強い事前では 16% へと低下し、52 パーセンテージポイントの差になります。処方箋は振幅(amplitude)です。Selective Layer Boosting は、アダプタをその上位ノルム(top-norm)層でスケールし、Conflict-Aware Internalization はベースモデルが確信している場合にのみブースティングを発動します。これらはいずれも学習不要(training-free)です。両者を併用すると、深い衝突の精度が Gemma-2B で 46.4% から 71.0% へ、Mistral-7B で 53.6% から 72.5% へと向上し、新規知識の想起を維持しつつ、パラメータ空間のみで動作しているにもかかわらず、中程度の衝突においてバニラの検索拡張生成(retrieval-augmented generation)を 18 パーセンテージポイント上回ります。さらに我々は KID-Bench を公開します。これは 489 問からなるベンチマークで、新規想起、知識の横断的な組み合わせ、そして事前で格付けされた(prior-graded)衝突を切り分けます。