ViT-AdaLA: 線形アテンションを用いたビジョン・トランスフォーマーの適応
arXiv cs.CV / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- ViT-AdaLAは、視覚基盤モデルから線形アテンションを採用するビジョン・トランスフォーマーへ知識を適応・移転する三段階のフレームワークを導入します。このフレームワークは、アテンション整合、特徴整合、そして教師あり微調整から成ります。
- 各ブロックにおいて、素の線形アテンションを元のソフトマックスアテンションと整合させ、ソフトマックス挙動を近似します。一方、凍結されたソフトマックスVFM教師に対して線形化されたViTを微調整することで、残留誤差を緩和します。
- 適応された知識は、教師あり微調整を通じて下流タスクへ転移され、分類とセグメンテーションの性能向上を可能にします。
- 実験結果は、様々な最先端の線形アテンション手法に対して有効性と一般性を示し、計算量を削減したViTに対するスケーラブルなアプローチであることを示しています。