理解から消去へ:完全で安定したビデオ物体除去に向けて
arXiv cs.CV / 2026/4/3
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文はビデオ物体除去を扱い、拡散ベースの現代的手法が、時空間の一貫性を保ちながら、影・反射・照明変化などの物体由来のアーティファクトを完全に除去することに苦戦している点を強調する。
- 「消去」に「理解」を加えることを提案し、2つの相補的な仕組みにより実現する。すなわち、視覚基盤モデルからビデオ拡散モデルへと物体効果の関係性を転移する外部蒸留(distillation)スキームである。
- さらに、各ノイズ除去ステップを、マスクされていない情報量の多い周辺文脈に基づける内部のフレームワイズ・コンテキスト・クロスアテンション機構を導入し、一貫した背景の再構築をより確実にする。
- 著者らは最先端の結果を報告し、ビデオ物体除去に関する「最初の実世界ベンチマーク」であると彼らが述べるものを、GitHub上でコード、データ、モデルとともに公開している。




