ELSA:高速かつ省メモリなビジョントランスフォーマ向けの正確な線形スキャン注意機構

arXiv cs.LG / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 本論文は、正確なsoftmaxセマンティクスを保ちつつ、FP32に対してO(u log n)の相対誤差上界を理論的に保証するオンラインsoftmax注意のアルゴリズム「ELSA」を提案している。
  • ELSAはオンラインsoftmax更新を、結合的なモノイド(m,S,W)上のプレフィックススキャンとして再構成し、追加メモリO(n)・並列深さO(log n)を実現して長系列での注意計算を高速化する。
  • FlashAttention系が特定のTensor Core命令に依存し、互換性のあるFP32経路を持たないのに対し、ELSAはTensor Core非依存かつハードウェア非依存で、TritonとCUDA C++で実装されている。
  • ベンチマークではA100上のFP32でELSAがメモリ効率の高いSDPAに対して1.3–3.5×の速度向上(1K–16Kトークン)を示し、BERTでも1.97–2.27×の改善が報告されている。
  • 著者らはELSAを、学習や重み変更を不要とするドロップイン置換として提示し、実装コードをGitHubで公開している。

emph{証明可能} な (mathcal{O}(ulog n)) の FP32 相対誤差上界を満たしながら、正確な softmax セマンティクスを保持し、(ii) オンライン softmax 更新を、結合的モノイド (m,S,W) 上のプレフィックス・スキャンとしてキャストし、追加メモリ O(n) と並列深さ O(log n) を実現し、(iii) Tensor-Core に非依存であり、Triton と CUDA C++ で実装され、
emph{ドロップイン置換} として、再学習や重みの変更を一切必要としません。FlashAttention-2/3 とは異なり、HMMA/GMMA の Tensor Core 命令に依存しており、互換性のある FP32 パスを提供しないのに対し、ELSA は A100 と Jetson TX2 のようなリソース制約のあるエッジデバイス上でも同一に動作します。これにより ELSA は、並列深さを O(log n) に抑えつつフル精度を実現する唯一のハードウェア非依存の正確な注意(exact-attention)カーネルになります。A100 の FP32 ベンチマーク(1K〜16K トークン)では、ELSA はメモリ効率の高い SDPA に対して 1.33.5 imes の高速化を提供し、BERT では 1.972.27 imes を達成します。Jetson TX2 では、ELSA は Math(64〜900 トークン)に対して 1.51.6 imes を実現し、さらに LLaMA-13B のオフロードを ge 32K で行った場合に 17.820.2% のスループット向上を示します。FP16 では、ELSA は長い系列においてハードウェア融合ベースラインに近づきつつ、完全な FP32 能力も保持し、プラットフォームをまたいだ高精度推論のための統一カーネルを提供します。コードおよび実装は https://github.com/ming053l/ELSA で利用可能です。