離散コサイン変換に基づくデコリレート・アテンション:ビジョントランスフォーマーのために

arXiv cs.CV / 2026/5/4

💬 オピニオンModels & Research

要点

  • 本論文は、離散コサイン変換(DCT)を活用して、ビジョントランスフォーマーにおける自己注意のクエリ/キー/バリュー射影のランダム初期化を改善しつつ計算コストを抑えることを提案しています。
  • DCT係数を用いた自己注意の初期化手法を導入し、構造を保持しながらCIFAR-10とImageNet-1Kで一貫した分類精度の向上を示しています。
  • さらに、周波数領域のデコリレーション性質を利用して入力パッチの高周波DCT成分を打ち切り、射影の次元を削減しつつ精度を維持するDCTベースのアテンション圧縮も提案しています。
  • Swin Transformerでの実験では、圧縮により計算オーバーヘッドを大きく削減しながら、性能は同等に保たれることを報告しています。