理想から現実へ：不完全な条件下での安定した動画オブジェクト除去

arXiv cs.CV / 2026/3/11

Ideas & Deep AnalysisModels & Research

共有:

要点

本論文は、影や急激な動き、欠陥のあるマスクなどの厳しい現実条件下でオブジェクトを効果的に除去するために設計された堅牢なフレームワークであるStable Video Object Removal（SVOR）を紹介します。
SVORは、時間的なマスクのダウンサンプリングを扱うMask Union for Stable Erasure（MUSE）、拡散処理対応の位置特定を可能にするDenoising-Aware Segmentation（DA-Seg）、自己教師あり学習と合成データの精緻化を含むカリキュラム方式の2段階トレーニング戦略の3つの主要な革新を組み込みます。
本手法は、オブジェクトとともにそれに伴う影や反射も同時に除去し、映像のクロスドメインでの堅牢性と時間的安定性を向上させます。
実験結果は、SVORが複数のデータセットおよび劣化したマスクのベンチマークで最先端の性能を達成し、動画オブジェクト除去技術を実用的な現実世界の応用に近づけていることを示しています。

要約: 影、急激な動き、欠陥のあるマスクなどの現実世界の不完全さが存在する場合、動画からオブジェクトを除去することは依然として困難です。既存の拡散ベースの動画インペインティングモデルは、これらの課題下で時間的安定性と視覚的一貫性を維持することに苦労することが多いです。本論文では、影のない、ちらつきのない、マスク欠陥に耐性を持つ除去を実現する堅牢なフレームワークであるStable Video Object Removal（SVOR）を提案します。SVORは以下の三つの主要な設計によって実現されます：(1) Mask Union for Stable Erasure（MUSE）——時間的マスクのダウンサンプリング時に適用されるウィンドウ化ユニオン戦略で、各ウィンドウ内で観測されたすべての対象領域を保持し、急激な動きを効果的に扱い、除去の見逃しを減少させます；(2) Denoising-Aware Segmentation（DA-Seg）——Denoising-Aware AdaLNを備えた分離されたサイドブランチ上の軽量セグメンテーションヘッドであり、マスク劣化を用いて訓練され内部の拡散対応の位置特定事前情報を提供しつつコンテンツ生成に影響を与えません；(3) カリキュラム2段階トレーニング——ステージIでは未ペアの実世界背景動画上で自己教師あり事前学習をオンラインランダムマスクとともに行いリアルな背景と時間的事前知識を学習し、ステージIIではマスク劣化や副作用重み付け損失を用いて合成ペア上で精錬を行い、オブジェクトと関連する影や反射を共同で除去しつつクロスドメイン耐性を向上させます。広範な実験によりSVORは複数のデータセットおよび劣化マスクのベンチマークで新たな最先端結果を達成し、理想的条件から現実応用へと動画オブジェクト除去を前進させています。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

理想から現実へ：不完全な条件下での安定した動画オブジェクト除去

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer