要旨: 拡散ベースの仮想試着(virtual try-on)手法は、クロスアテンション機構によって衣服の特徴を対象となる身体領域へ転送することで、フォトリアルな合成を実現します。しかし、これらのアプローチは空間対応関係を暗黙的に学習することに依存しており、文字やイラストのような細かな情報の保持が難しいという課題があります。そこで本研究では、SIFT-VTON と呼ぶ新しい手法を提案します。この手法は、SIFT キーポイントのマッチングを利用して、拡散ベースの仮想試着に対する明示的な幾何学的ガイダンスを提供します。提案手法は、衣服画像と人物画像の間の SIFT キーポイントマッチに対してドメイン特化のフィルタリングを適用し、その対応関係を空間確率分布へ変換したうえで、学習中のクロスアテンション層を監督します。この明示的な監督により、モデルは正確な空間アライメントを学習するよう導かれ、幾何学的に整合した衣服領域に注意が集中します。VITON-HD データセットに対する実験では、ペアなしの指標で大幅な改善が示される一方で、ペアありの再構成指標は競争力のある水準を維持しています。定性的比較では、文字の明瞭さとパターンの整合がより良く保持されることが確認できます。注意可視化の結果からも、本手法が関連する衣服の詳細に対して鋭く焦点化した注意を生成することが分かります。本研究は、古典的な幾何学的対応関係の手法が、条件付き合成タスクにおける現代の拡散モデルを効果的に強化できることを示しています。ソースコードは https://github.com/takesukeDS/SIFT-VTON で公開予定です。
SIFT-VTON:クロスアテンションに対する幾何学的対応の教師信号によるバーチャル試着
arXiv cs.CV / 2026/5/5
📰 ニュースTools & Practical UsageModels & Research
要点
- SIFT-VTONは、SIFTキーポイント対応を用いてクロスアテンションに明示的な幾何学的教師信号を加える、新しい拡散ベースのバーチャル試着手法である。
- この手法はドメイン固有のルールでSIFTマッチをフィルタし、その対応を空間確率分布へ変換して、学習時にクロスアテンション層を教師することで、より正確な位置合わせを実現する。
- VITON-HDデータセットでの実験では、対応なし(unpaired)指標で大きな改善が見られる一方、対応あり(paired)での再構成性能は競争力を維持している。
- 定性的結果とアテンション可視化から、テキストの鮮明さや柄の整列といった細部の保持が向上し、幾何学的に整合した領域へ注意がより鋭く集中することが示される。
- 本研究は、古典的な幾何学的対応手法が条件付き画像合成のための拡散モデルを効果的に強化し得ることを示しており、著者はGitHubでコード公開を予定している。




