GQAトランスフォーマにおける感度-位置的共局在(Sensitivity-Positional Co-Localization)

arXiv cs.CL / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、GQAトランスフォーマにおいて、タスクの正しさに最も敏感な層が、位置エンコーディング(RoPE)の適応が最も大きく効く層と整合するかどうかを検証し、「共局在仮説(co-localization hypothesis)」を提案する。
  • Llama 3.1 8B(32層、クエリ対キー/バリュー・ヘッド比が4:1)での実験は共局在を否定し、代わりに強い反共局在(anti-localization)を見いだす。具体的には、タスクに敏感な層は後半(層23〜31)に集中し、RoPEの影響が大きい層は前半(層0〜9)に集中する。その結果、Spearmanの相関係数は r_s = -0.735(p = 1.66×10^-6)となる。
  • 著者らは2つの手法を導入する。LSLORAは、新しい「正しさ差分(correctness-differential)隠れ状態」指標によって選ばれた層に限定してのみLoRA適応を行う。GARFAは、狙った層に対して、KVヘッドごとの学習可能なRoPE周波数スカラー乗数を追加する。
  • 4方向の層間アブレーションにより、感度が特定された層に対してLSLORAとGARFAの両方を適用するのが最も良い結果をもたらすことが示される。6つのベンチマークで性能が4〜16ポイント向上し、HumanEval+においてClaude 3.5 Haikuに近い性能を達成する(67.1% vs 68.3%)。また、必要な計算コストはおよそ総額$100程度である。

要旨: 我々は、Grouped Query Attention(GQA)トランスフォーマにおける基礎的な構造上の問いを探究する。すなわち、タスクの正しさに最も敏感な層は、位置エンコーディング適応のレバレッジが最大となる層と一致するのか? 我々はこれを「共局在仮説(co-localization hypothesis)」と呼び、4:1 のクエリ対キー・バリュー(query-to-key-value)ヘッド比を持つ32層の GQA モデルである Llama 3.1 8B で検証する。我々は \\LSLORA を導入する。これは、独自の「正しさの差分(correctness-differential)隠れ状態」指標によって同定された層に対してのみ LoRA 適応を制限するものである。さらに GARFA(GQA-Aware RoPE Frequency Adaptation)を提案する。これは、標的とする各層に対し、各 KV ヘッドごとに 8 個の学習可能なスカラー乗数を付与するものである。共局在仮説に反して、我々は強い反共局在を発見する。すなわち、タスクに敏感な層は後段ネットワーク(\\ell\\in\\{23\text{-}31\\})に集中する一方で、RoPE の影響が大きい層は前段ネットワーク(\\ell\\in\\{0\text{-}9\\})を支配し、その結果 Spearman の順位相関は r_s = -0.735p = 1.66\\times10^{-6})となる。この反共局在にもかかわらず、4通りの層間アブレーションでは、感度が同定された層に両方の介入を適用することで、他のあらゆる構成よりも 6 つの多様なベンチマーク(MMLU、GPQA、HumanEval+、MATH、MGSM、ARC)において 4〜16 パーセンテージポイント上回ることが示される。さらに、HumanEval+ において Claude 3.5 Haiku に近づき(67.1% 対 68.3%)、総計算コストは 100 である。