ELSA：高速かつ省メモリなビジョントランスフォーマ向けの正確な線形スキャン注意機構

arXiv cs.LG / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

本論文は、正確なsoftmaxセマンティクスを保ちつつ、FP32に対してO(u log n)の相対誤差上界を理論的に保証するオンラインsoftmax注意のアルゴリズム「ELSA」を提案している。
ELSAはオンラインsoftmax更新を、結合的なモノイド(m,S,W)上のプレフィックススキャンとして再構成し、追加メモリO(n)・並列深さO(log n)を実現して長系列での注意計算を高速化する。
FlashAttention系が特定のTensor Core命令に依存し、互換性のあるFP32経路を持たないのに対し、ELSAはTensor Core非依存かつハードウェア非依存で、TritonとCUDA C++で実装されている。
ベンチマークではA100上のFP32でELSAがメモリ効率の高いSDPAに対して1.3–3.5×の速度向上（1K–16Kトークン）を示し、BERTでも1.97–2.27×の改善が報告されている。
著者らはELSAを、学習や重み変更を不要とするドロップイン置換として提示し、実装コードをGitHubで公開している。

emph{証明可能} な $(mathcal{O}(ulog n))$ の FP32 相対誤差上界を満たしながら、正確な softmax セマンティクスを保持し、(ii) オンライン softmax 更新を、結合的モノイド $(m,S,W)$ 上のプレフィックス・スキャンとしてキャストし、追加メモリ $O(n)$ と並列深さ $O(log n)$ を実現し、(iii) Tensor-Core に非依存であり、Triton と CUDA C++ で実装され、
emph{ドロップイン置換} として、再学習や重みの変更を一切必要としません。FlashAttention-2/3 とは異なり、HMMA/GMMA の Tensor Core 命令に依存しており、互換性のある FP32 パスを提供しないのに対し、ELSA は A100 と Jetson TX2 のようなリソース制約のあるエッジデバイス上でも同一に動作します。これにより ELSA は、並列深さを $O(log n)$ に抑えつつフル精度を実現する唯一のハードウェア非依存の正確な注意（exact-attention）カーネルになります。A100 の FP32 ベンチマーク（1K〜16K トークン）では、ELSA はメモリ効率の高い SDPA に対して $1.3$ 〜 $3.5 imes$ の高速化を提供し、BERT では $1.97$ 〜 $2.27 imes$ を達成します。Jetson TX2 では、ELSA は Math（64〜900 トークン）に対して $1.5$ 〜 $1.6 imes$ を実現し、さらに LLaMA-13B のオフロードを $ge$ 32K で行った場合に $17.8$ 〜 $20.2%$ のスループット向上を示します。FP16 では、ELSA は長い系列においてハードウェア融合ベースラインに近づきつつ、完全な FP32 能力も保持し、プラットフォームをまたいだ高精度推論のための統一カーネルを提供します。コードおよび実装は https://github.com/ming053l/ELSA で利用可能です。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/28Dailyインサイトを見る →

Black Hat USA

AI Business

富士通、独自CPUで狙うソブリンAI ラピダス味方にGPUと共存

日経XTECH

光電融合、新プレーヤー・新技術が続々データセンター省電力化

日経XTECH

生成エンジン最適化（GEO）とは何か、そしてなぜ今SEOチームに必要なのか

Dev.to

背景を画像から無料で削除（登録不要）：実践ガイド

Dev.to

ELSA：高速かつ省メモリなビジョントランスフォーマ向けの正確な線形スキャン注意機構

要点

💡 この記事が使われたインサイト

関連記事

Black Hat USA

富士通、独自CPUで狙うソブリンAI ラピダス味方にGPUと共存

光電融合、新プレーヤー・新技術が続々データセンター省電力化

生成エンジン最適化（GEO）とは何か、そしてなぜ今SEOチームに必要なのか

背景を画像から無料で削除（登録不要）：実践ガイド

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Black Hat USA

富士通、独自CPUで狙うソブリンAI ラピダス味方にGPUと共存

光電融合、新プレーヤー・新技術が続々 データセンター省電力化

生成エンジン最適化（GEO）とは何か、そしてなぜ今SEOチームに必要なのか

背景を画像から無料で削除（登録不要）：実践ガイド

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

光電融合、新プレーヤー・新技術が続々データセンター省電力化