VARestorer:実世界の画像超解像のためのワンステップVAR蒸留
arXiv cs.CV / 2026/4/24
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、事前学習済みのテキストから画像への視覚自己回帰(VAR)モデルを、実世界の画像超解像(Real-ISR)向けのワンステップモデルへ変換する蒸留手法「VARestorer」を提案する。
- ISRに特有の課題として、因果的な注意による次スケール予測ではグローバルな低品質(LQ)文脈を十分に活用できず、反復的な推論では誤差が蓄積して整合性が崩れる点を扱う。
- VARestorerは分布マッチングにより反復的なリファインメントを不要にし、誤差伝播を抑えて推論時間を大幅に削減する。
- さらに、ピラミッド状の画像条件付けとクロススケール注意を導入し、スケール間の双方向相互作用を実現して、後続のLQトークンがトランスフォーマで見落とされないようにする。
- DIV2Kでの実験ではSOTA(72.32 MUSIQ、0.7669 CLIPIQA)を達成し、従来のVAR推論に比べて推論を10倍高速化しつつ、パラメータ効率の高いアダプタによる微調整は全体の1.2%に留めている。



