VTEdit-Bench: バーチャル試着におけるマルチリファレンス画像編集モデルの総合ベンチマーク
arXiv cs.CV / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- VTEdit-Bench ベンチマークは、バーチャル試着(VTON)シナリオにおける普遍的なマルチリファレンス画像編集モデルを評価するために導入されました。
- VTEdit-Bench には、頑健性と一般化の体系的分析を可能にするため、代表的な5つのVTONタスクにまたがる24,220組のテスト画像ペアが含まれています。
- 著者らはまた、参照を考慮したVLMベースの評価ツール VTEdit-QA を提案しており、モデルの一貫性、衣服の一貫性、全体的な画像品質の3つの観点で評価します。
- 本研究は、8つの普遍的編集モデルと7つの専門VTONモデルを比較し、普遍的エディタが従来タスクで競争力を持ち、難しいシナリオへの一般化もより安定している一方、複雑な複数衣服の条件付けには課題があることを示しています。
- 結果は、複雑な参照設定に関する残された難しさを浮き彫りにし、普遍的VTONメソッドを改善するための道を示しています。
要旨: バーチャル試着(VTON)の進展が続く中、現実世界のシナリオは増え、既存の専門的VTONモデルの能力を超えるケースが現れてきています。一方、普遍的なマルチリファレンス画像編集モデルは急速に進展しており、視覚的編集における強力な一般化を示しており、より柔軟なVTONシステムへの有望な道を示唆します。しかし、強力であるにもかかわらず、VTONの普遍的エディタの長所と限界は、体系的な評価ベンチマークの不足のため十分には検証されていません。このギャップを埋めるため、私たちは VTEdit-Bench を導入します。これは、さまざまな現実的なVTONシナリオにわたる普遍的なマルチリファレンス画像編集モデルを評価する包括的なベンチマークです。VTEdit-Bench には、徐々に複雑さが増す5つの代表的なVTONタスクにまたがる24,220組のテスト画像ペアが含まれており、頑健性と一般化の体系的な分析を可能にします。さらに、参照を意識したVLMベースの評価ツール VTEdit-QA を提案します。これは、モデルの一貫性、衣服の一貫性、全体的な画像品質という3つの主要な観点からVTONのパフォーマンスを評価します。このフレームワークを通じて、8つの普遍的編集モデルを体系的に評価し、7つの専門VTONモデルと比較します。結果は、トップの普遍的なエディタが従来のタスクで競争力を持ち、難しいシナリオへの一般化もより安定していることを示しますが、特に複数衣服情報による条件付けなど、複雑な参照設定には依然として課題があります。
