TripVVT：大規模トリプレットデータセットと「粗いマスク」ベースラインによる、実環境動画バーチャル試着

arXiv cs.CV / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

本研究は、実環境の大規模トリプレットデータ不足とマスクの不適切な扱いに起因する、動画バーチャル試着モデルの性能限界を解決することを目的としています。
TripVVT-10Kとして、これまでで最大かつ多様な「実環境」トリプレットデータセットを提示し、既存の動画データセットにないビデオレベルのクロス衣服（跨ぐ服）教師信号を明示的に提供します。
TripVVT-10Kを基に、Diffusion TransformerベースのTripVVTを開発し、壊れやすい衣服マスクの代わりに安定したヒトのマスク事前知識を用いることで、実世界の動き・遮蔽・散らかった背景下でも背景保持を安定化します。
評価のために、100ケースからなるTripVVT-Benchを構築し、多様な衣服、複雑な環境、多人数シーンをカバーしつつ、動画品質、試着の忠実度、背景整合性、時間的な一貫性を測定します。
結果としてTripVVTは、既存の学術・商用システムより動画品質と衣服の忠実度で優れ、難しい実環境動画への汎化も大幅に改善し、データセットとベンチマークは公開されます。

要旨: 大規模な「in-the-wild」トリプレットデータの不足と、マスクの不適切な使用により、ビデオ仮想トライオンモデルの性能は限界があります。本論文では、まずこれまでで最大かつ最も多様な「in-the-wild」トリプレットデータセットである **TripVVT-10K** を導入し、既存のビデオデータセットにはない、ビデオ単位の明示的なクロスガーメント監督を提供します。この資源に基づき、**TripVVT** という Diffusion Transformer ベースの枠組みを開発し、脆弱な衣服マスクを、単純で安定した人間マスクの事前知識に置き換えます。これにより、現実世界の動き、遮蔽、雑然としたシーンに対して頑健でありながら、確実な背景の保持を可能にします。包括的な評価を支えるため、さらに **TripVVT-Bench** を確立します。これは多様な衣服、複雑な環境、複数人シナリオをカバーする 100 ケースのベンチマークであり、ビデオ品質、トライオンの忠実度、背景の整合性、時間的な一貫性にまたがる指標を含みます。最先端の学術および商用システムと比較して、TripVVT は、困難な「in-the-wild」ビデオへの汎化を大幅に改善しつつ、より優れたビデオ品質と衣服の忠実度を達成します。私たちは、データセットとベンチマークを公開します。これらは、制御可能で現実的かつ時間的に安定したビデオ仮想トライオンを発展させるための確固たる基盤になると私たちは考えています。

Black Hat USA

AI Business

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

Dev.to

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

ITmedia AI+

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

Reddit r/artificial

NVIDIA Nemotron 3 Super Buildコンテストの発表

Dev.to

TripVVT：大規模トリプレットデータセットと「粗いマスク」ベースラインによる、実環境動画バーチャル試着

要点

関連記事

Black Hat USA

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

NVIDIA Nemotron 3 Super Buildコンテストの発表

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？ 開発者に聞く “文字化け解消”の秘訣

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

NVIDIA Nemotron 3 Super Buildコンテストの発表

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣