AI Navigate

人間のフィードバックを活用した仮想試着のリファレンスフリー画像品質評価

arXiv cs.CV / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • グラウンドトゥルース画像を必要としない、仮想試着用のリファレンスフリー画像品質評価フレームワーク VTON-IQA を提案する。
  • 人間の注釈付き大規模ベンチマーク VTON-QBench を構築する。62,688 枚の試着画像と 431,800 件の品質アノテーションを、13,838 名のアノテータから得た、現時点でこのタスクの最大規模を誇るベンチマークである。
  • 自己注意とMLPの間にクロスアテンション層を挿入する Interleaved Cross-Attention モジュールを導入し、衣服の忠実度と個人特有のディテールを共同でモデリングする。
  • VTON-IQA が人間の判断と一致する画像品質予測を生み出すことを示し、14 種類の代表的な VTON モデルの包括的なベンチマークを提供する。

要旨: 人の画像と衣服の画像を与えると、画像ベースのヴァーチャル試着(VTON)は、ターゲットの衣服を着用した人物の試着画像を合成します。VTONシステムがファッションECなどの実用的な応用でますます重要になるにつれて、その出力の信頼性のある評価が重要な課題として浮上しています。現実世界のシナリオでは、同じ人物がターゲットの衣服を着用している ground-truth 画像は通常入手できないため、参照ベースの評価は現実的ではありません。さらに、Fréchet Inception Distance および Kernel Inception Distance のようなデータセットレベルの類似性を測定する広く使われている分布レベルの指標は、個々の生成画像の知覚品質を反映することができません。これらの制限に対処するため、Ground-truth 画像を必要としない、人間の知覚判断をモデル化した、画像レベルの品質評価の参照フリーのフレームワークである Virtual Try-On のための Image Quality Assessment(VTON-IQA)を提案します。人間の知覚判断をモデル化するために、VTON-QBench を構築します。62,688 枚の試着画像を含み、14 個の代表的な VTON モデルによって生成され、13,838 名の認定注釈者から収集された431,800 件の品質注釈から成る、大規模な人間注釈付きベンチマークです。我々の知る限り、これは仮想試着における人間の主観評価のこれまでで最大のデータセットです。仮想試着の品質を評価するには、衣服の忠実性と個人固有のディテールの保持の両方を検証する必要があります。こうした相互作用を明示的にモデル化するため、自己注意とMLP の間にクロスアテンション層を挿入した Interleaved Cross-Attention モジュールを導入します。広範な実験により、VTON-IQA は信頼性の高い人間と整合した画像レベルの品質予測を達成することを示しています。さらに、VTON-IQA を用いた 14 の代表的な VTON モデルの総合ベンチマーク評価を実施します。