OmniDiT: 拡散トランスフォーマーを Omni-VTON フレームワークへ拡張

arXiv cs.CV / 2026/3/23

📰 ニュースModels & Research

共有:

要点

OmniDiTは、拡散トランスフォーマーを基盤とするフレームワークで、仮想試着（VTON）と試着オフ（VTOFF）タスクを単一のモデルに統合します。
著者らは、38万件を超える衣服-モデル-試着画像ペアと詳細なテキストプロンプトを含む Omni-TryOn データセットを導入し、自己進化型のデータキュレーションパイプラインを通じて構築しました。
トークン連結、適応的な位置エンコーディング、Shifted Window Attentionを含むアーキテクチャ上の革新を提案し、拡散モデルの計算量を線形に抑えつつ、複数タイムステップ予測と整合性損失を導入して忠実度を高めます。
実験結果は、モデルフリーの VTON および VTOFF において最先端の性能を示し、モデルベースの VTON では現行の SOTA 手法と同等の性能と比較可能であることを示します。

要約: 仮想試着（VTON）および Try-Off（VTOFF）技術の急速な進展にもかかわらず、既存のVTON手法は、細かなディテールの保持、複雑なシーンへの一般化、煩雑なパイプライン、および効率的な推論といった課題に直面しています。これらの問題に対処するため、Diffusion Transformer に基づくオムニ仮想試着フレームワーク OmniDiT を提案します。これは、試着（try-on）と試着解除（try-off）タスクを1つの統一モデルに統合するものです。具体的には、まず自己進化型データキュレーション・パイプラインを確立して継続的にデータを生成し、大規模な VTON データセット Omni-TryOn を構築します。Omni-TryOn には38万件を超える多様で高品質な衣服-モデル-トライオンの画像ペアと詳細なテキストプロンプトが含まれます。次に、トークン連結を用い、複数の参照条件を効果的に組み込むための適応的な位置エンコーディングを設計します。長いシーケンス計算のボトルネックを緩和するため、Shifted Window Attention を拡散モデルに初めて導入し、線形計算量を実現しました。局所ウィンドウ注意による性能低下を是正するため、複数のタイムステップ予測とアライメント損失を用いて生成忠実度を向上させます。実験の結果、さまざまな複雑なシーンにおいて、我々の手法はモデルフリーのVTONおよびVTOFFタスクの双方で最高の性能を達成し、モデルベースのVTONタスクでは現在のSOTA手法と同等の性能を示すことが分かりました。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

LLMの合成データ生成は臨床テキストマイニングに役立つか？

Dev.to

ローカルAI時代の夜明け：iPhone 17 ProからNVIDIA RTXの未来へ

Dev.to

OmniDiT: 拡散トランスフォーマーを Omni-VTON フレームワークへ拡張

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

LLMの合成データ生成は臨床テキストマイニングに役立つか？

ローカルAI時代の夜明け：iPhone 17 ProからNVIDIA RTXの未来へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer