離散コサイン変換に基づくデコリレート・アテンション:ビジョントランスフォーマーのために
arXiv cs.CV / 2026/5/4
💬 オピニオンModels & Research
要点
- 本論文は、離散コサイン変換(DCT)を活用して、ビジョントランスフォーマーにおける自己注意のクエリ/キー/バリュー射影のランダム初期化を改善しつつ計算コストを抑えることを提案しています。
- DCT係数を用いた自己注意の初期化手法を導入し、構造を保持しながらCIFAR-10とImageNet-1Kで一貫した分類精度の向上を示しています。
- さらに、周波数領域のデコリレーション性質を利用して入力パッチの高周波DCT成分を打ち切り、射影の次元を削減しつつ精度を維持するDCTベースのアテンション圧縮も提案しています。
- Swin Transformerでの実験では、圧縮により計算オーバーヘッドを大きく削減しながら、性能は同等に保たれることを報告しています。
関連記事

Power PlatformにおけるALM:ADO+GitHubで「両方の良いところ」を取る
Dev.to

実験:RAGライク構成でChatGPT 5.4の出力は反復利用で変わるのか?
Dev.to

「覚えたルール」がバグにも都合よく当てはまるとき——エージェントワークフローのメタトラップ
Dev.to
LWiAIポッドキャスト #243 - GPT 5.5、DeepSeek V4、AI安全の妨害
Last Week in AI

マルチモーダルAI「Flamingo」を読むための前提知識まとめ②(Catastrophic Forgetting、Frozen backbone、セルフアテンションとクロスアテンション、自己回帰モデル)
Qiita