PROMO: 効率的な高忠実度仮想試着のためのPromptableアウトフィッティング

arXiv cs.CV / 2026/3/13

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

PROMOはFlow Matching DiTバックボーンと潜在的マルチモーダル条件付けを組み込んだ、プロンプト対応の仮想試着フレームワークで、被写体保持、テクスチャ転送、そして調和を含む高忠実度のVTON結果をサポートします。
条件付けの効率性と自己参照機構を活用することで、従来のVTON手法と比較して推論オーバーヘッドを大幅に削減します。
標準ベンチマークにおいて、PROMOは従来のVTON手法および一般的な画像編集モデルを視覚的忠実度の点で上回りつつ、品質と速度の競争力のあるバランスを維持します。
訓練フレームワークは汎用的で、より広範な画像編集タスクへ移植可能であり、VTONペアデータは一般目的のエディタを訓練するための豊富な監督信号を提供します。
本研究は、潜在条件付けと自己参照による加速を備えた flow-matching トランスフォーマーが、オンライン小売に影響を与える可能性を持つ高品質な仮想試着のための効果的で訓練効率の高い解決策を提供することを強調しています。

要旨: 仮想試着（VTON）はオンライン小売の中核的な能力となっており、現実的な試着結果は適合性の信頼できる指針を提供し、返品を削減し、消費者と販売者の双方に利益をもたらします。拡散（ディフュージョン）ベースのVTON手法はフォトリアリスティックな合成を実現しますが、しばしば補助的参照ネットワークなどの複雑なアーキテクチャに依存し、サンプリングが遅くなるため、忠実度と効率のトレードオフが持続的な課題となっています。我々はVTONを、3つの重要な要件の下で強力な条件付き生成を要求する構造化された画像編集問題として捉えます。被写体の保持、忠実なテクスチャ転送、そしてシームレスな調和という要件です。この観点から、我々の訓練フレームワークは汎用的で、より広範な画像編集タスクにも移植可能です。さらに、VTONによって生成されるペアデータは、汎用エディタを訓練するための豊富な監督信号となります。我々はPROMOを提示します。PROMOはFlow Matching DiTバックボーンと潜在的マルチモーダル条件付き結合を組み込んだ、プロンプト可能な仮想試着フレームワークです。条件付けの効率性と自己参照機構を活用することで、推論オーバーヘッドを大幅に低減します。標準的なベンチマークにおいて、PROMOは従来のVTON手法および一般的な画像編集モデルよりも視覚的忠実度で優位に立ちつつ、品質と速度のバランスを競争力のある水準で提供します。これらの結果は、潜在マルチモーダル条件付けと自己参照による加速を備えたFlow-Matchingトランスフォーマーが、高品質な仮想試着のための効果的で訓練効率の高い解決策を提供することを示しています。