剪定されたビジョントランスフォーマーに向けたディスパッチ対応ラギッド注意(Dispatch-Aware Ragged Attention)
arXiv cs.AI / 2026/4/20
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、FlashAttention-2 varlenやPyTorchのNestedTensor SDPAのような可変長注意APIを使うと、Vision Transformer(ViT)に対するトークン剪定が注意レイテンシを期待ほど減らせない理由を分析しています。
- 分析の結果、ディスパッチ(ホスト側呼び出し)オーバーヘッドがボトルネックであることが示され、剪定後の典型的なトークン数(≤197)では行列演算は数マイクロ秒で終わる一方、ホスト側のディスパッチが60–90マイクロ秒かかると述べています。
- 著者らは、ディスパッチのフロアを約40マイクロ秒まで下げることを狙った、軽量な双方向Triton注意カーネルを提案し、壁時計時間における剪定の効果を見えやすくします。
- pack–attend–unpackの一連のパイプラインに組み込むことで、4つの剪定手法とDeiTの複数モデルサイズにわたり、パディング付きPyTorch SDPAに対して最大2.24×のエンドツーエンドスループットを達成し、分類予測はビット同等(最大絶対ログit差<0.007)を維持します。
- 総じて、本研究は剪定の性能を「FLOP削減」だけでなく、ViTで一般的な短いシーケンスに対するカーネル/ディスパッチのオーバーヘッド最適化として捉え直しています。



