効率的な長い文脈モデリングのための潜在・圧縮トランスフォーマ

arXiv cs.CL / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Multi-head Latent Attention(MLA)の圧縮された潜在空間内で直接動作する新しい長文脈アテンション手法「Latent-Condensed Attention(LCA)」を提案する。キャッシュと計算量の削減を別々に扱うのではなく、同一の枠組みの中で統合して実現する。
  • LCAは、クエリに応じたプーリングにより意味的な潜在ベクトルを集約することで、キー・バリュー(KV)キャッシュ容量とアテンション計算の両方を削減する。さらに、アンカー選択により位置情報を保持する。
  • 本手法は新たなパラメータを追加せず、アーキテクチャに依存しないため、MLAに留まらずGQAなど他のアテンション変種にも拡張可能である。
  • 著者らは、このアプローチに対して理論的な、長さに依存しない誤差の上界を提示している。
  • 実験では、最大2.5倍の高速化(prefill)および128K文脈長で約90%のKVキャッシュ削減を報告しており、性能も競争力を維持している。