AI Navigate

CARE: 共分散を意識したランク強化MLA変換によるマルチヘッド潜在アテンションの実現

arXiv cs.LG / 2026/3/19

📰 ニュースModels & Research

要点

  • CAREは共分散を意識したランク強化MLA変換を導入し、表現力を高めつつKVキャッシュサイズを維持する。
  • 活性化を保持する因子分解、調整されたランク割り当て、およびKVパリティマッピングを用いて、近似を活性化に合わせ、必要な箇所に容量を割り当てる。
  • Qwen3-4BとLlama-3.1での評価は、KV予算を揃えた条件で、ワンショット時のパープレキシティを最大で215倍削減し、平均精度を最大で1.70倍改善することを示した。
  • SVD後のヒーリング・ファインチューニングにより、元のモデルの精度を完全に回復する。

概要:
事前学習済みのアテンションモジュール(例: グループ化クエリ・アテンション(GQA))をマルチヘッド潜在アテンション(MLA)へ変換することは、KVキャッシュコストを増やすことなく表現力を向上させ、効率的推論に魅力を与えます。しかし、多くの実用的な変換ベースラインは、重みのみの低ランク近似(例: SVD風の初期化)と一様なランク割り当てに依存します。それらは重み行列間の差を最小化することに焦点を合わせ、これらの重みが入力活性化に与える影響には目を向けず、活性化の共分散構造を無視し、層間で一様なランクを強制するため、活性化のドリフトとアテンションの忠実度低下を引き起こします。これらの問題に対処するため、固定KV幅の下で共分散を考慮したランク強化 MLA 変換パイプライン CARE を提案します。CARE は3つの主要なステップを導入します: (i) 活性化を保持する因数分解、これは近似を重みにだけでなく、実際の入力活性化と整合させます; (ii) ランク割り当ての調整、固定KV予算を層全体に分配し、最も必要な層により多くの容量を与えます; (iii) KVパリティマッピング、これは変換された K と V を MLA 形式に適合させつつ、KVキャッシュサイズを変更せずに再パラメータ化します。私たちの手法は、Qwen3-4B/30B-A3B-Instruct-2507 および Llama-3.1-8B/70B-Instruct における一様ランク SVD ベースラインを上回り、同等のKV予算で、ワンショットのパープレキシティを最大215倍低減し、平均精度を最大1.70倍向上させます。SVD後の短いヒーリング・ファインチューニングを行えば、元のモデルの精度を完全に回復します。