LoRAにおける適応とクエリ認識KV圧縮のためのサブトークン・ルーティング
arXiv cs.LG / 2026/4/24
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LoRA適応型トランスフォーマーにおけるサブトークン・ルーティングを提案し、従来のトークン/ヘッド/層などの粗い単位よりも細かな効率制御軸を提供します。
- KVの保持予算のもとでは重要情報がトークン間だけでなくトークン内部でも不均一に分布するため、KV圧縮をトークン単位で全か無かに扱うべきではないと主張しています。
- 言語モデリング向けに、ルーティングされたサブスペースLoRAとKVパス上のバリューグループ・ルーティングを組み合わせるクエリ非依存設計を導入し、品質–圧縮のトレードオフを改善します。
- 下流タスク向けには、クエリに基づく関連度で条件付けしつつ、文脈トークン/バリューグループの組に対してグローバルな保持予算を割り当てる予測器ベースのクエリ認識設計を提案します。
- 実験では、クエリ非依存設計が言語モデリングで有効であり、クエリ認識設計はKV予算を削減しても下流挙動の保持に寄与すること、さらにトークンレベルとサブトークンレベルのルーティングが補完的な圧縮軸になることを示しています。



