VeraRetouch:マルチタスク推論型のレタッチのための軽量な完全微分可能フレームワーク

arXiv cs.CV / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文では、欠陥を解析し、推論プロセスに基づくプランを生成し、精密な編集を実行できるマルチタスク推論型フォトレタッチ向けの、軽量かつ完全微分可能なフレームワーク「VeraRetouch」を提案しています。
  • 中核となる知能として0.5B規模のビジョン・ランゲージモデル(VLM)を用い、指示とシーン意味論からレタッチ計画を作成し、さらに外部の非微分可能ツールを完全微分可能な「Retouch Renderer」で置き換えて、ピクセル単位のエンドツーエンド学習を可能にしています。
  • Retouch Rendererは、照明・グローバルカラー・特定色調整といった制御を独立した潜在表現(control latents)として扱う設計で、最適化の障壁やパラメータ冗長性を抑えつつ汎化性能の向上を狙っています。
  • データ不足への対策として、逆劣化ワークフローから構築したプロ向けレタッチの100万規模データセット「AetherRetouch-1M+」を導入し、さらに自律的な美的認識を高める強化学習のポストトレーニング「DAPO-AE」も提案しています。
  • 複数ベンチマークでSOTA相当の性能を示しつつモデルサイズのフットプリントを大幅に抑え、モバイル展開を可能にすると報告されており、コードとモデルはGitHubで公開されています。

概要: 推論型の写真レタッチは大きな注目を集めており、モデルは画像の欠陥を解析し、推論プロセスを提示し、正確なレタッチ強化を実行する必要があります。しかし、既存の手法の多くは微分不可能な外部ソフトウェアに依存しているため、最適化の障壁が生じ、パラメータの冗長性が高く、汎化性能が限定的です。これらの課題に対処するため、我々はマルチタスク写真レタッチのための、軽量かつ完全に微分可能な枠組みであるVeraRetouchを提案します。中心となる知能として0.5Bのビジョン・ランゲージ・モデル(VLM)を採用し、指示とシーンの意味論に基づいてレタッチ計画を構築します。さらに、外部ツールに代わる完全に微分可能なRetouch Rendererを開発し、照明、グローバルカラー、特定の色調整に対する分離された制御ラティッツ(control latents)によって制御を切り離すことで、直接エンドツーエンドのピクセルレベル学習を可能にします。データ不足を克服するために、新しい逆劣化(inverse degradation)ワークフローによって構築された、プロフェッショナル向けレタッチの初の100万規模データセットであるAetherRetouch-1M+を導入します。さらに、自律的な美的認知を高める強化学習のポストトレーニング戦略としてDAPO-AEを提案します。広範な実験により、VeraRetouchは複数のベンチマークにおいて最先端の性能を達成しつつ、モデルフットプリントを大幅に小さく維持できることが示され、モバイルへの展開を可能にします。コードとモデルは https://github.com/OpenVeraTeam/VeraRetouch で公開されています。