ビジュアル・インプリシット自己回帰モデリング

arXiv cs.CV / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、Visual Autoregressive Modeling（VAR）を改善するVisual Implicit Autoregressive Modeling（VIAR）を提案し、暗黙の平衡（equilibrium）層を挿入することで計算の深さを固定せず、高解像度でのメモリ肥大を抑えることを狙っています。
VIARはJacobian-Free Backpropagationで暗黙層を学習するため学習時のメモリ使用量が一定になり、推論ではスケールごとの反復回数を調整できる「ノブ」により計算量を動的に制御できます。
ImageNet 256×256で、VIARはFID 2.16、sFID 8.07という強い生成性能を報告しており、VARのパラメータの38.4%のみで、強力な自己回帰ベースラインに匹敵または上回る結果を示します。
計算ノブにより、ピークメモリを19.24 GBから8.53 GBへ、RTX 4090 1枚上でのスループットを15.16から32.08 images/sへ増やせるとされており、再学習は不要です。
実験では、固定点反復の収束に必要なステップ数が少なくて済むことや、品質/効率のトレードオフでVIARがVARを一貫して上回ることが示され、ゼロショットのインペイントやクラス条件付き編集でも、細部がよりシャープで境界が滑らかになるなどの利点が検証されています。

要旨: 次スケール予測に基づく視覚自己回帰モデリング（VAR）は強い生成品質を達成しますが、その明示的な深いスタックはスケールごとの計算量を固定してしまい、高解像度ではメモリを膨張させます。そこで我々は、浅いpre/postブロックの間に暗黙の平衡（インプリシット・エクイリブリアム）層を埋め込んだ次スケール自己回帰ジェネレータであるVisual Implicit Autoregressive Modeling（VIAR）を提案します。暗黙層はヤコビアンフリー・バックプロパゲーションで学習され、学習時のメモリを一定に保ちます。一方、推論ではスケールごとの反復（イテレーション）を調整するノブが露出し、計算量の制御を可能にします。ImageNet 256x256のベンチマークでは、VIARはFID 2.16を達成し、さらにVARのパラメータの38.4%のみでsFID 8.07となり、強力なARベースラインに匹敵、または上回り、大規模な拡散モデルとも競争力を維持します。スケールごとのノブを制御することで、VIARはピークメモリを19.24 GBから8.53 GBへ削減し、学習し直すことなく、単一のRTX 4090上でスループットを15.16から32.08 images/sへ倍増できます。アブレーションにより、固定点反復が収束するために必要なステップ数はより少なくてよいこと、そしてVIARは品質と効率の作業点（operating points）において一貫してVARを上回ることが示されます。ゼロショットのインペイントとクラス条件付き編集では、VIARはグローバルな構造を保持しつつ、よりシャープなディテールと滑らかな境界を生成し、実運用・デプロイ可能な視覚生成における暗黙の平衡とスケールごとの計算量制御の利点を検証します。