MPM: Efficient Vision Transformersのための相互ペアマージ

arXiv cs.CV / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、プロキシとなる分類指標に依存するのではなく、セマンティックセグメンテーションの高速化を目的とした視覚トランスフォーマ向けの、トレーニング不要のトークン集約モジュールであるMutual Pair Merging（MPM）を提案する。

要旨: シーケンス長を減らすことはトランスフォーマーを高速化する一般的な方法ですが、従来のトークン削減に関する研究は多くの場合、分類を対象としており、エンドツーエンドのレイテンシではなく代理指標を報告しています。セマンティックセグメンテーションでは、密なピクセル整列特徴を復元する必要があるため、トークン削減にはさらに制約があります。また、現代のアクセラレータでは、マージ（統合）マップを計算するオーバーヘッドが、期待される効果を相殺してしまうことがあります。私たちは、相互最近傍マージ（Mutual Pair Merging, MPM）を提案します。これは、トレーニング不要のトークン集約モジュールであり、コサイン空間上で相互最近傍のペアを形成し、各ペアを平均化し、既存のセグメンテーションヘッドを変更せずに使用できるようにデコーダの前で gather ベースの復元を可能にするマージマップを記録します。MPM は学習されたパラメータを導入せず、連続的な圧縮ノブもありません（keep-rate やしきい値はありません）。速度と精度のトレードオフは、離散的な挿入スケジュールによって決まります。NVIDIA H100 GPU（FlashAttention-2 の有無）および Raspberry Pi 5 で、標準的なセグメンテーションデータセットに対してエンドツーエンドのレイテンシをベンチマークしました。ADE20K では、Raspberry Pi 5 上の ViT-Tiny に対して MPM が 1 枚あたりのレイテンシを最大 60% 減少させ、mIoU の低下を 3% 未満に抑えながら、FlashAttention-2 を用いた H100 でスループットを最大 20% 向上させます。これらの結果は、単純な「復元を意識した、トレーニング不要」のトークン統合が、オーバーヘッドを明示的に考慮すれば、セグメンテーションにおいて実際のウォールクロック上の利益へとつながり得ることを示唆しています。

Black Hat Asia

AI Business

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

日経XTECH

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

日経XTECH

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

日経XTECH

MPM: Efficient Vision Transformersのための相互ペアマージ

要点

関連記事

Black Hat Asia

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

ザハ事務所出身の建築家、AI前提の設計法を実践 設計者はキュレーターに

安川電機、人型ロボをオフィスへ フィジカルAIで「臨機応変」実現

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」 リアルな現場も効率化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化