LoRAにおける適応とクエリ認識KV圧縮のためのサブトークン・ルーティング

arXiv cs.LG / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LoRA適応型トランスフォーマーにおけるサブトークン・ルーティングを提案し、従来のトークン／ヘッド／層などの粗い単位よりも細かな効率制御軸を提供します。
KVの保持予算のもとでは重要情報がトークン間だけでなくトークン内部でも不均一に分布するため、KV圧縮をトークン単位で全か無かに扱うべきではないと主張しています。
言語モデリング向けに、ルーティングされたサブスペースLoRAとKVパス上のバリューグループ・ルーティングを組み合わせるクエリ非依存設計を導入し、品質–圧縮のトレードオフを改善します。
下流タスク向けには、クエリに基づく関連度で条件付けしつつ、文脈トークン／バリューグループの組に対してグローバルな保持予算を割り当てる予測器ベースのクエリ認識設計を提案します。
実験では、クエリ非依存設計が言語モデリングで有効であり、クエリ認識設計はKV予算を削減しても下流挙動の保持に寄与すること、さらにトークンレベルとサブトークンレベルのルーティングが補完的な圧縮軸になることを示しています。