要約: 影、急激な動き、欠陥のあるマスクなどの現実世界の不完全さが存在する場合、動画からオブジェクトを除去することは依然として困難です。既存の拡散ベースの動画インペインティングモデルは、これらの課題下で時間的安定性と視覚的一貫性を維持することに苦労することが多いです。本論文では、影のない、ちらつきのない、マスク欠陥に耐性を持つ除去を実現する堅牢なフレームワークであるStable Video Object Removal(SVOR)を提案します。SVORは以下の三つの主要な設計によって実現されます:(1) Mask Union for Stable Erasure(MUSE)——時間的マスクのダウンサンプリング時に適用されるウィンドウ化ユニオン戦略で、各ウィンドウ内で観測されたすべての対象領域を保持し、急激な動きを効果的に扱い、除去の見逃しを減少させます;(2) Denoising-Aware Segmentation(DA-Seg)——Denoising-Aware AdaLNを備えた分離されたサイドブランチ上の軽量セグメンテーションヘッドであり、マスク劣化を用いて訓練され内部の拡散対応の位置特定事前情報を提供しつつコンテンツ生成に影響を与えません;(3) カリキュラム2段階トレーニング——ステージIでは未ペアの実世界背景動画上で自己教師あり事前学習をオンラインランダムマスクとともに行いリアルな背景と時間的事前知識を学習し、ステージIIではマスク劣化や副作用重み付け損失を用いて合成ペア上で精錬を行い、オブジェクトと関連する影や反射を共同で除去しつつクロスドメイン耐性を向上させます。広範な実験によりSVORは複数のデータセットおよび劣化マスクのベンチマークで新たな最先端結果を達成し、理想的条件から現実応用へと動画オブジェクト除去を前進させています。
理想から現実へ:不完全な条件下での安定した動画オブジェクト除去
arXiv cs.CV / 2026/3/11
Ideas & Deep AnalysisModels & Research
要点
- 本論文は、影や急激な動き、欠陥のあるマスクなどの厳しい現実条件下でオブジェクトを効果的に除去するために設計された堅牢なフレームワークであるStable Video Object Removal(SVOR)を紹介します。
- SVORは、時間的なマスクのダウンサンプリングを扱うMask Union for Stable Erasure(MUSE)、拡散処理対応の位置特定を可能にするDenoising-Aware Segmentation(DA-Seg)、自己教師あり学習と合成データの精緻化を含むカリキュラム方式の2段階トレーニング戦略の3つの主要な革新を組み込みます。
- 本手法は、オブジェクトとともにそれに伴う影や反射も同時に除去し、映像のクロスドメインでの堅牢性と時間的安定性を向上させます。
- 実験結果は、SVORが複数のデータセットおよび劣化したマスクのベンチマークで最先端の性能を達成し、動画オブジェクト除去技術を実用的な現実世界の応用に近づけていることを示しています。

