VersaVogue: 統一的なファッション合成のための視覚エキスパート統率と嗜好アラインメント

arXiv cs.CV / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究では、拡散モデルによるファッション画像生成において「衣服生成」と「バーチャル試着」を別問題として扱う従来手法の限界を指摘し、それらを統合する枠組みとしてVersaVogueを提案している。
  • VersaVogueは、条件特徴を最も適合する生成器/層へ動的にルーティングするtrait-routing attention(TA)モジュール(mixture-of-experts)により、テクスチャ・形状・色などの属性注入を分離し、属性の絡みや意味干渉を抑える設計になっている。
  • 実用的な現実味と制御性の向上のため、人手注釈やタスク別報酬モデルに頼らずに嗜好データを自動構築するmulti-perspective preference optimization(MPO)パイプラインを導入している。
  • MPOはコンテンツ忠実度、テキスト整合性、知覚品質を評価して信頼できる嗜好ペアを作り、DPO(direct preference optimization)でモデルを最適化することで、ガーメント生成とバーチャル試着の両ベンチマークで既存手法を上回ると報告している。

概要: 拡散モデルはファッション画像生成において目覚ましい進展をもたらしてきましたが、従来の研究は通常、衣服生成と仮想試着を別個の問題として扱っているため、実世界のファッション業務フローにおける柔軟性が制限されていました。さらに、複数ソースの異種条件下でのファッション画像合成は依然として困難です。既存手法はしばしば、単純な特徴の連結や静的な層ごとの注入に依存しており、その結果、属性の絡み合い(entanglement)や意味的干渉が起こりやすいからです。これらの課題に対処するために、本研究では、衣服生成と仮想試着の両方を同時にサポートする、多条件の制御可能なファッション合成のための統一フレームワークであるVersaVogueを提案します。これは、ファッションライフサイクルにおける設計段階とショーケース段階に対応します。具体的には、特性ルーティング注意(TA)モジュールを導入します。このモジュールは、モixture-of-experts(Mixture-of-experts)機構を活用して、条件特徴を最も適合するエキスパートと生成層へ動的にルーティングし、質感、形状、色といった視覚的属性を分離した形で注入できるようにします。さらに、現実味と制御性を高めるために、人手によるアノテーションやタスク固有の報酬モデルなしで嗜好データを構築する、自動化された多視点嗜好最適化(MPO)パイプラインを開発します。コンテンツの忠実性、テキストとの整合性、知覚的品質の評価器を組み合わせることで、MPOは信頼できる嗜好ペアを特定し、そのペアを直接嗜好最適化(DPO)によってモデルの最適化に用います。衣服生成ベンチマークと仮想試着ベンチマークの双方に対する大規模な実験により、VersaVogueが視覚的忠実性、意味的一貫性、きめ細かな制御性の面で、既存手法を一貫して上回ることが示されます。

VersaVogue: 統一的なファッション合成のための視覚エキスパート統率と嗜好アラインメント | AI Navigate