TripVVT:大規模トリプレットデータセットと「粗いマスク」ベースラインによる、実環境動画バーチャル試着

arXiv cs.CV / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 本研究は、実環境の大規模トリプレットデータ不足とマスクの不適切な扱いに起因する、動画バーチャル試着モデルの性能限界を解決することを目的としています。
  • TripVVT-10Kとして、これまでで最大かつ多様な「実環境」トリプレットデータセットを提示し、既存の動画データセットにないビデオレベルのクロス衣服(跨ぐ服)教師信号を明示的に提供します。
  • TripVVT-10Kを基に、Diffusion TransformerベースのTripVVTを開発し、壊れやすい衣服マスクの代わりに安定したヒトのマスク事前知識を用いることで、実世界の動き・遮蔽・散らかった背景下でも背景保持を安定化します。
  • 評価のために、100ケースからなるTripVVT-Benchを構築し、多様な衣服、複雑な環境、多人数シーンをカバーしつつ、動画品質、試着の忠実度、背景整合性、時間的な一貫性を測定します。
  • 結果としてTripVVTは、既存の学術・商用システムより動画品質と衣服の忠実度で優れ、難しい実環境動画への汎化も大幅に改善し、データセットとベンチマークは公開されます。

要旨: 大規模な「in-the-wild」トリプレットデータの不足と、マスクの不適切な使用により、ビデオ仮想トライオンモデルの性能は限界があります。本論文では、まずこれまでで最大かつ最も多様な「in-the-wild」トリプレットデータセットである **TripVVT-10K** を導入し、既存のビデオデータセットにはない、ビデオ単位の明示的なクロスガーメント監督を提供します。この資源に基づき、**TripVVT** という Diffusion Transformer ベースの枠組みを開発し、脆弱な衣服マスクを、単純で安定した人間マスクの事前知識に置き換えます。これにより、現実世界の動き、遮蔽、雑然としたシーンに対して頑健でありながら、確実な背景の保持を可能にします。包括的な評価を支えるため、さらに **TripVVT-Bench** を確立します。これは多様な衣服、複雑な環境、複数人シナリオをカバーする 100 ケースのベンチマークであり、ビデオ品質、トライオンの忠実度、背景の整合性、時間的な一貫性にまたがる指標を含みます。最先端の学術および商用システムと比較して、TripVVT は、困難な「in-the-wild」ビデオへの汎化を大幅に改善しつつ、より優れたビデオ品質と衣服の忠実度を達成します。私たちは、データセットとベンチマークを公開します。これらは、制御可能で現実的かつ時間的に安定したビデオ仮想トライオンを発展させるための確固たる基盤になると私たちは考えています。