要旨: シーケンス長を減らすことはトランスフォーマーを高速化する一般的な方法ですが、従来のトークン削減に関する研究は多くの場合、分類を対象としており、エンドツーエンドのレイテンシではなく代理指標を報告しています。セマンティックセグメンテーションでは、密なピクセル整列特徴を復元する必要があるため、トークン削減にはさらに制約があります。また、現代のアクセラレータでは、マージ(統合)マップを計算するオーバーヘッドが、期待される効果を相殺してしまうことがあります。私たちは、相互最近傍マージ(Mutual Pair Merging, MPM)を提案します。これは、トレーニング不要のトークン集約モジュールであり、コサイン空間上で相互最近傍のペアを形成し、各ペアを平均化し、既存のセグメンテーションヘッドを変更せずに使用できるようにデコーダの前で gather ベースの復元を可能にするマージマップを記録します。MPM は学習されたパラメータを導入せず、連続的な圧縮ノブもありません(keep-rate やしきい値はありません)。速度と精度のトレードオフは、離散的な挿入スケジュールによって決まります。NVIDIA H100 GPU(FlashAttention-2 の有無)および Raspberry Pi 5 で、標準的なセグメンテーションデータセットに対してエンドツーエンドのレイテンシをベンチマークしました。ADE20K では、Raspberry Pi 5 上の ViT-Tiny に対して MPM が 1 枚あたりのレイテンシを最大 60% 減少させ、mIoU の低下を 3% 未満に抑えながら、FlashAttention-2 を用いた H100 でスループットを最大 20% 向上させます。これらの結果は、単純な「復元を意識した、トレーニング不要」のトークン統合が、オーバーヘッドを明示的に考慮すれば、セグメンテーションにおいて実際のウォールクロック上の利益へとつながり得ることを示唆しています。
MPM: Efficient Vision Transformersのための相互ペアマージ
arXiv cs.CV / 2026/4/8
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、プロキシとなる分類指標に依存するのではなく、セマンティックセグメンテーションの高速化を目的とした視覚トランスフォーマ向けの、トレーニング不要のトークン集約モジュールであるMutual Pair Merging(MPM)を提案する。
