ProxyAttn：代表ヘッドによるガイド付きスパース注意

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、長文タスクにおけるLLMの注意（attention）の計算コストが二次的に増大する問題に対し、より効率的なスパース注意を狙うことで解決を図る。
代表ヘッドをプロキシとして用い、注意ヘッド間の類似性を活用することでブロック重要度推定を改善する、学習不要（training-free）の手法としてProxyAttnを提案する。
さらにProxyAttnは、ヘッドごとに必要なスパース性が異なることに対応するため、ブロックを意識した動的な予算（budget）推定を追加し、低オーバーヘッドでより粒度の細かいスパース性の判断を目指す。
複数の主要モデルとベンチマークに対する実験では、既存手法と比べて性能低下を最小限に抑えつつ、注意の加速で最大10.3×、プリフィリング（prefilling）の加速で2.4×を報告している。
著者らはコードを公開しており、ProxyAttnを長いコンテキストのLLMワークロードを加速するための、すぐに利用可能な研究貢献として位置付けている。

要旨: 注意機構の二次的な計算量の複雑さが、長文タスクにおける大規模言語モデル（LLM）の効率を制限している。近年、ブロックの重要度を動的に推定する手法により、効率的なブロックスパース注意が可能になり、LLMの長文プリフィリングが大幅に高速化された。しかし、これらの手法における粗い粒度の推定は、スパース率が高い場合に必然的に性能劣化を引き起こす。本研究では、注意ヘッドの次元を圧縮することで、より正確なブロック推定を実現する、学習不要のスパース注意アルゴリズム ProxyAttn を提案する。複数の注意ヘッド間の類似性に関する我々の観察に基づき、プールされた代表ヘッドのスコアを用いて、すべてのヘッドのスコアを近似する。さらに、ヘッド間でスパース度が異なることを考慮して、ブロックを意識した動的予算推定手法も提案する。代表的なプロキシヘッドから得たスコアと、マルチヘッドの動的予算を組み合わせることで、低い計算コストでよりきめ細かなブロック重要度の評価を実現する。主流モデルの多様な実験と広範なベンチマークにより、注意ヘッド間に基づく前提となる類似性が確認される。提案手法は、きめ細かな推定を活用することで、既存手法と比べて性能と効率の双方で大きな向上を達成する。より具体的には、ProxyAttn は、大きな性能低下を伴わずに、最大 10.3x の注意計算加速および 2.4x のプリフィリング加速を達成できる。コードは https://github.com/wyxstriker/ProxyAttn で公開している。