OmniDiT: 拡散トランスフォーマーを Omni-VTON フレームワークへ拡張

arXiv cs.CV / 2026/3/23

📰 ニュースModels & Research

要点

  • OmniDiTは、拡散トランスフォーマーを基盤とするフレームワークで、仮想試着(VTON)と試着オフ(VTOFF)タスクを単一のモデルに統合します。
  • 著者らは、38万件を超える衣服-モデル-試着画像ペアと詳細なテキストプロンプトを含む Omni-TryOn データセットを導入し、自己進化型のデータキュレーションパイプラインを通じて構築しました。
  • トークン連結、適応的な位置エンコーディング、Shifted Window Attentionを含むアーキテクチャ上の革新を提案し、拡散モデルの計算量を線形に抑えつつ、複数タイムステップ予測と整合性損失を導入して忠実度を高めます。
  • 実験結果は、モデルフリーの VTON および VTOFF において最先端の性能を示し、モデルベースの VTON では現行の SOTA 手法と同等の性能と比較可能であることを示します。

要約: 仮想試着(VTON)および Try-Off(VTOFF)技術の急速な進展にもかかわらず、既存のVTON手法は、細かなディテールの保持、複雑なシーンへの一般化、煩雑なパイプライン、および効率的な推論といった課題に直面しています。これらの問題に対処するため、Diffusion Transformer に基づくオムニ仮想試着フレームワーク OmniDiT を提案します。これは、試着(try-on)と試着解除(try-off)タスクを1つの統一モデルに統合するものです。具体的には、まず自己進化型データキュレーション・パイプラインを確立して継続的にデータを生成し、大規模な VTON データセット Omni-TryOn を構築します。Omni-TryOn には38万件を超える多様で高品質な衣服-モデル-トライオンの画像ペアと詳細なテキストプロンプトが含まれます。次に、トークン連結を用い、複数の参照条件を効果的に組み込むための適応的な位置エンコーディングを設計します。長いシーケンス計算のボトルネックを緩和するため、Shifted Window Attention を拡散モデルに初めて導入し、線形計算量を実現しました。局所ウィンドウ注意による性能低下を是正するため、複数のタイムステップ予測とアライメント損失を用いて生成忠実度を向上させます。実験の結果、さまざまな複雑なシーンにおいて、我々の手法はモデルフリーのVTONおよびVTOFFタスクの双方で最高の性能を達成し、モデルベースのVTONタスクでは現在のSOTA手法と同等の性能を示すことが分かりました。

OmniDiT: 拡散トランスフォーマーを Omni-VTON フレームワークへ拡張 | AI Navigate