要旨: トークン圧縮は、Vision Transformer(ViT)における自己注意機構の二次的な複雑性を緩和するために重要であり、多くの場合多数の入力トークンを扱います。ToMe のような既存手法は、GPU 効率の低い演算(例:ソート、分散書き込み)に依存しており、その結果オーバーヘッドが生じて有効性が制限されます。私たちは、行列演算のみに基づくトレーニング不要・微分可能なトークン結合手法である MaMe を導入します。これにより、ViT を高速化するために GPU に適した形で動作します。さらに、トークン復元のためのその逆操作である MaRe も提示し、画像合成のための MaMe+MaRe パイプラインを構成します。事前学習済みモデルに適用すると、MaMe は精度が 2% 低下するだけで ViT-B のスループットを 2 倍にします。特に、MaMe により最終層を微調整すると、1.1 倍の速度で ViT-B の精度が 1.0% 向上します。SigLIP2-B@512 のゼロショット分類では、MaMe は性能劣化がごくわずかなまま 1.3 倍の加速を提供します。動画タスクでは、MaMe は Kinetics-400 上で VideoMAE-L を 48.5% 加速し、精度の低下はわずか 0.84% です。さらに、いくつかのタスクでは、MaMe が性能と速度の両方を同時に改善することを達成します。画像合成においては、MaMe+MaRe パイプラインにより品質が向上しつつ、Stable Diffusion v2.1 の生成レイテンシを 31% 減少させます。総じて、これらの結果は、視覚モデルを加速する上での MaMe と MaRe の有効性を示しています。コードは https://github.com/cominder/mame}{https://github.com/cominder/mame で利用できます。
MaMe & MaRe:効率的な視覚知覚と合成のための、行列ベースのトークン統合および復元
arXiv cs.AI / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- MaMeは、自己注意の二次的な計算コストを削減するために、GPUに適した行列演算のみを用いる、教師なし学習不要の微分可能なVision Transformer向けトークン統合手法として導入される。




