要旨: 本研究では、Visual Autoregressive Modeling(VAR)フレームワークを基に拡張し、学習済み潜在空間において条件付き離散系列モデリングとしてスタイル変換を定式化する。画像は複数スケールの表現に分解され、VQ-VAEによって離散コードにトークン化される。続いてトランスフォーマが、スタイルトークンおよびコンテントトークンを条件として、ターゲットトークンの分布を自己回帰的にモデル化する。スタイルおよびコンテント情報を注入するために、ブレンデッドなクロスアテンション機構を導入する。この機構では、進化するターゲット表現が自己の履歴に注意を向ける一方で、スタイルおよびコンテントの特徴はクエリとして振る舞い、この履歴のどの側面を強調すべきかを決定する。スケール依存のブレンディング係数が、各段階におけるスタイルとコンテントの相対的な影響度を制御し、VARの自己回帰的な連続性を損なうことなく、合成表現がコンテント構造とスタイルのテクスチャの両方に整合することを促す。StyleVARは、事前学習済みのVARチェックポイントから2段階で訓練する。まず、大規模なトリプレットデータセット(コンテント--スタイル--ターゲット画像)に対する教師あり微調整(SFT)を行い、続いてDreamSimベースの知覚報酬に対して、Group Relative Policy Optimization(GRPO)による強化学習の微調整を行う。さらに、VARのマルチスケール階層にわたってクレジットを再配分するために、アクションごとの正規化による重み付けを用いる。in-distribution、near-distribution、out-of-distributionの3つのベンチマークにまたがる評価で、StyleVARは一貫してAdaINのベースラインを、Style Loss、Content Loss、LPIPS、SSIM、DreamSim、CLIP類似度において上回り、GRPO段階はSFTチェックポイントに対してさらなる改善をもたらす。とりわけ、報酬に整合した知覚指標で顕著である。定性的には、本手法は意味論的な構造を維持しながらテクスチャを転送し、とりわけ風景や建築シーンで有効である。一方で、インターネット画像における汎化ギャップや、人の顔に対する難しさは、より良いコンテント多様性と、より強力な構造的事前知識の必要性を示している。
StyleVAR:視覚オートレグレッシブモデリングによる制御可能な画像スタイル変換
arXiv cs.CV / 2026/4/24
📰 ニュースModels & Research
要点
- この論文では、Visual Autoregressive Modeling(VAR)フレームワークをベースにしたStyleVARを提案し、学習した潜在空間上での条件付き離散系列モデリングとして画像スタイル変換を定式化します。
- マルチスケールの画像表現をVQ-VAEで離散コード化し、スタイルとコンテンツの両方に条件付けてターゲットトークンを自己回帰的に生成することで変換を行います。
- ブレンデッドなクロスアテンション機構により、生成途中の表現が自己の履歴に注目しつつ、スタイルとコンテンツの特徴が「履歴のどの側面を強調するか」を決めるように設計されています。
- 影響度の調整にはスケール依存のブレンド係数を用い、VARの自己回帰的な連続性を保ちながら、コンテンツ構造とスタイルの質感の両方に整合することを促します。
- 学習はSFT(コンテンツ–スタイル–ターゲットの大規模トリプレット)と、その後にGRPO(DreamSimベースの知覚報酬で強化微調整)という2段階で行われ、AdaINベースラインを複数ベンチマークで上回り、特に報酬整合の指標で改善が見られます。


