理解から消去へ：完全で安定したビデオ物体除去に向けて

arXiv cs.CV / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文はビデオ物体除去を扱い、拡散ベースの現代的手法が、時空間の一貫性を保ちながら、影・反射・照明変化などの物体由来のアーティファクトを完全に除去することに苦戦している点を強調する。
「消去」に「理解」を加えることを提案し、2つの相補的な仕組みにより実現する。すなわち、視覚基盤モデルからビデオ拡散モデルへと物体効果の関係性を転移する外部蒸留（distillation）スキームである。
さらに、各ノイズ除去ステップを、マスクされていない情報量の多い周辺文脈に基づける内部のフレームワイズ・コンテキスト・クロスアテンション機構を導入し、一貫した背景の再構築をより確実にする。
著者らは最先端の結果を報告し、ビデオ物体除去に関する「最初の実世界ベンチマーク」であると彼らが述べるものを、GitHub上でコード、データ、モデルとともに公開している。

Abstract

ビデオ中のオブジェクト除去は、動画から目標となるオブジェクトを取り除きつつ、欠落領域をもっともらしく補完し、さらに時空間の一貫性を維持することを目的とします。近年、拡散モデルによってこの課題は進展していますが、全体の整合性を損なうことなく、オブジェクトが引き起こす副作用（たとえば、影、反射、照明の変化）を除去することは依然として困難です。この制約は、目標オブジェクトとそれがシーンと相互作用する様子に対する、十分な物理的および意味的理解がないことに起因します。本論文では、消去（erasing）に理解を導入するために、補完的な2つの観点から提案します。外部の観点として、蒸留（distillation）方式を導入し、視覚の基盤モデルから動画拡散モデルへ、オブジェクト間の関係とそれが引き起こす効果の関係を転送します。内部の観点として、フレームごとのコンテキストを用いたクロスアテンション機構を提案し、各デノイジングブロックを、目標領域を取り除いた（アンマスクされた）周辺の情報豊かな文脈に基づけます。外部ガイダンスと内部ガイダンスの双方が協調することで、モデルは目標オブジェクトとその誘導される効果、そしてグローバルな背景文脈を理解できるようになり、その結果として明瞭で一貫したオブジェクト除去が実現されます。大規模な実験により最先端の性能を示し、さらに動画オブジェクト除去のための初の実世界ベンチマークを構築して、今後の研究とコミュニティの発展を促進します。コード、データ、モデルは次で利用可能です: https://github.com/WeChatCV/UnderEraser.