AI Navigate

ViT-AdaLA: 線形アテンションを用いたビジョン・トランスフォーマーの適応

arXiv cs.CV / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • ViT-AdaLAは、視覚基盤モデルから線形アテンションを採用するビジョン・トランスフォーマーへ知識を適応・移転する三段階のフレームワークを導入します。このフレームワークは、アテンション整合、特徴整合、そして教師あり微調整から成ります。
  • 各ブロックにおいて、素の線形アテンションを元のソフトマックスアテンションと整合させ、ソフトマックス挙動を近似します。一方、凍結されたソフトマックスVFM教師に対して線形化されたViTを微調整することで、残留誤差を緩和します。
  • 適応された知識は、教師あり微調整を通じて下流タスクへ転移され、分類とセグメンテーションの性能向上を可能にします。
  • 実験結果は、様々な最先端の線形アテンション手法に対して有効性と一般性を示し、計算量を削減したViTに対するスケーラブルなアプローチであることを示しています。

Abstract

Vision Transformers(ViTs)に基づくビジョン・ファウンデーションモデル(VFMs)は、多様な視覚タスクにおいて顕著な性能を達成している一方、長いシーケンスへのスケーラビリティを制限する二次計算量の問題に悩まされている。ViTs の既存の線形アテンション手法は通常、ゼロから訓練され、膨大な計算資源を必要とし、また大規模言語モデルデコーダに対して開発された線形化ベースの手法はViTsにはうまく転送されない。これらの課題に対処するため、VFMs から線形アテンション ViTs へ事前知識を効果的に適応・転移させる新しいフレームワークとして ViT-AdaLA を提案する。ViT-AdaLA は、注意の整合、特徴の整合、教師ありファインチューニングの3つの段階からなる。注意の整合段階では、各ブロックにおいて従来の線形アテンションを元のソフトマックスベースのアテンションと整合させ、ソフトマックスアテンションの挙動を近似する。しかし、残差近似誤差は層をまたいで不可避的に蓄積する。これを緩和するため、線形化された ViT をファインチューニングして最終層の特徴を凍結したソフトマックスVFM教師と一致させる。最後に、適応された事前知識を教師ありファインチューニングを通じて下流タスクへ転移する。分類およびセグメンテーションタスクでの広範な実験は、ViT-AdaLA がさまざまな最先端の線形アテンションの対応手法に対して有効であり、一般性が高いことを示しています。