UCAN: 軽量超解像における拡張受容野の統合畳み込みアテンションネットワーク
arXiv cs.CV / 2026/3/13
📰 ニュースModels & Research
要点
- UCANは、畳み込みとアテンションを統合して有効受容野を効率的に拡張する軽量ネットワークであり、リソース制約のあるデバイス上で高品質な画像超解像を実現します。
- ウィンドウベースの空間アテンションとヘッジホッグ・アテンション機構を組み合わせ、局所的なテクスチャと長距離依存関係の両方をモデル化します。
- 蒸留を用いた大カーネルモジュールは高周波構造を重い計算を伴わずに保持し、層間パラメータ共有によってモデルの複雑さをさらに低減します。
- 実証結果では UCAN-L が Manga109($4 imes$)で 48.4G MACs のみで 31.63 dB PSNR を達成し、BSDS100 でも 27.79 dB を達成して、最近の軽量モデルを上回り、精度と効率の良好なトレードオフを強調します。
ハイブリッドCNN-Transformerアーキテクチャは画像超解像で高い性能を発揮しますが、アテンションウィンドウや畳み込みカーネルをスケールさせると計算コストが大幅に増加し、リソース制約のあるデバイスでの展開を制限します。私たちは、畳み込みとアテンションを統合して有効受容野を効率的に拡張する軽量ネットワーク UCAN を提示します。UCAN はウィンドウベースの空間アテンションとヘッジホッグ・アテンション機構を組み合わせ、局所的なテクスチャと長距離の依存関係の両方をモデル化します。さらに、蒸留に基づく大カーネルモジュールを導入して、重い計算を伴わずに高周波構造を保持します。加えて、層間パラメータ共有を用いて複雑さをさらに低減します。Manga109 ($4 imes$) において UCAN-L は 48.4G MACs のみで 31.63 dB PSNR を達成し、最近の軽量モデルを上回ります。BSDS100 でも UCAN は 27.79 dB を達成し、はるかに大きなモデルを用いた手法を凌駕します。広範な実験により、UCAN は精度、効率、スケーラビリティの間で優れたトレードオフを達成し、実用的な高解像度画像復元に適していることが示されています。


