SAT:画像超解像のための選択的集約トランスフォーマ

arXiv cs.CV / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、標準的な自己注意に伴う高い二次コストを克服しつつ、長距離依存のモデリングを維持することを目的として、画像超解像のための選択的集約トランスフォーマ(Selective Aggregation Transformer: SAT)を提案する。
  • SATは、クエリ行列をフル解像度のまま保って復元の忠実性を維持しつつ、キー・バリュー表現を選択的に集約することで、トークン数を大幅に削減する(報告では97%削減)。
  • 密度に駆動したトークン集約アルゴリズムにより、密度と孤立度の指標を用いてクラスタ表現を同定し、重要な高周波の画像詳細をより適切に保持する。
  • 実験では、SATが従来の最先端手法(PFT)を最大0.22 dB上回り、総FLOPsを最大27%削減できることが報告されている。
  • この手法は、大域的な相互作用に対してスケーラブルであり、品質への大きなトレードオフなしに、トランスフォーマベースの超解像をより効率化するものとして位置づけられている。

Abstract

Transformerベースのアプローチは、長距離の依存関係をモデリングすることで、画像超解像に革命をもたらしました。しかし、従来の自己注意機構における二次的な計算複雑性は大きな課題であり、しばしば効率とグローバルな文脈の活用との間で妥協を余儀なくされます。近年のウィンドウベースの注意手法は、計算を局所化することでこれを緩和していますが、多くの場合、受容野が制限されがちです。これらの制限を軽減するために、我々はSelective Aggregation Transformer(SAT)を提案します。この新しいTransformerは、重要なキー・バリュー行列を選択的に集約することで(Density-driven Token Aggregationアルゴリズムによりトークン数を97\%削減)クエリ行列の完全な解像度を維持しつつ、長距離の依存関係を効率的に捉えます。その結果、モデルの受容野が大幅に拡大されます。この設計により計算コストが大きく削減され、複雑性が低下し、再構成の忠実性を損なうことなく、大規模なグローバル相互作用を可能にします。SATは、密度と孤立度の指標を用いて、各クラスタを単一の集約トークンで識別・表現し、重要な高周波の詳細が保持されるようにします。実験結果は、SATが最先端手法PFTを最大0.22dB上回り、さらに総FLOPs数を最大27\%削減できることを示しています。