GQAトランスフォーマにおける感度-位置的共局在（Sensitivity-Positional Co-Localization）

arXiv cs.CL / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、GQAトランスフォーマにおいて、タスクの正しさに最も敏感な層が、位置エンコーディング（RoPE）の適応が最も大きく効く層と整合するかどうかを検証し、「共局在仮説（co-localization hypothesis）」を提案する。
Llama 3.1 8B（32層、クエリ対キー/バリュー・ヘッド比が4:1）での実験は共局在を否定し、代わりに強い反共局在（anti-localization）を見いだす。具体的には、タスクに敏感な層は後半（層23〜31）に集中し、RoPEの影響が大きい層は前半（層0〜9）に集中する。その結果、Spearmanの相関係数は r_s = -0.735（p = 1.66×10^-6）となる。
著者らは2つの手法を導入する。LSLORAは、新しい「正しさ差分（correctness-differential）隠れ状態」指標によって選ばれた層に限定してのみLoRA適応を行う。GARFAは、狙った層に対して、KVヘッドごとの学習可能なRoPE周波数スカラー乗数を追加する。
4方向の層間アブレーションにより、感度が特定された層に対してLSLORAとGARFAの両方を適用するのが最も良い結果をもたらすことが示される。6つのベンチマークで性能が4〜16ポイント向上し、HumanEval+においてClaude 3.5 Haikuに近い性能を達成する（67.1% vs 68.3%）。また、必要な計算コストはおよそ総額$100程度である。

要旨: 我々は、Grouped Query Attention（GQA）トランスフォーマにおける基礎的な構造上の問いを探究する。すなわち、タスクの正しさに最も敏感な層は、位置エンコーディング適応のレバレッジが最大となる層と一致するのか？　我々はこれを「共局在仮説（co-localization hypothesis）」と呼び、4:1 のクエリ対キー・バリュー（query-to-key-value）ヘッド比を持つ32層の GQA モデルである Llama 3.1 8B で検証する。我々は \\LSLORA を導入する。これは、独自の「正しさの差分（correctness-differential）隠れ状態」指標によって同定された層に対してのみ LoRA 適応を制限するものである。さらに GARFA（GQA-Aware RoPE Frequency Adaptation）を提案する。これは、標的とする各層に対し、各 KV ヘッドごとに 8 個の学習可能なスカラー乗数を付与するものである。共局在仮説に反して、我々は強い反共局在を発見する。すなわち、タスクに敏感な層は後段ネットワーク（ $\\ell\\in\\{23\text{-}31\\}$ ）に集中する一方で、RoPE の影響が大きい層は前段ネットワーク（ $\\ell\\in\\{0\text{-}9\\}$ ）を支配し、その結果 Spearman の順位相関は $r_s = -0.735$ （ $p = 1.66\\times10^{-6}$ ）となる。この反共局在にもかかわらず、4通りの層間アブレーションでは、感度が同定された層に両方の介入を適用することで、他のあらゆる構成よりも 6 つの多様なベンチマーク（MMLU、GPQA、HumanEval+、MATH、MGSM、ARC）において 4〜16 パーセンテージポイント上回ることが示される。さらに、HumanEval+ において Claude 3.5 Haiku に近づき（67.1% 対 68.3%）、総計算コストは $100$ である。

Black Hat Asia

AI Business

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

日経XTECH

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Reddit r/artificial

GQAトランスフォーマにおける感度-位置的共局在（Sensitivity-Positional Co-Localization）

要点

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ 通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透