Physics-Aware Video Instance Removal Benchmark

arXiv cs.CV / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、背景の物理的なリアリティ(例:反射や照明の相互作用)を維持しつつ、動画から対象物体を除去するための新しいベンチマークである Physics-Aware Video Instance Removal(PVIR)を提案する。
  • PVIR には、インスタンス精度に対応したマスクと除去プロンプトを備えた高品質な95本の動画が含まれており、複雑な物理的副作用を明示的に評価するために Simple と Hard の2つのサブセットに分割されている。
  • 著者らは、人間による評価プロトコルをデカップル(分離)した手法である decoupled human evaluation protocol を用いて、4つの手法(PISCO-Removal、UniVideo、DiffuEraser、CoCoCo)を評価する。このプロトコルは、セマンティック、視覚、空間の失敗を分離する。
  • 結果は、PISCO-Removal と UniVideo が最先端の性能に到達している一方で、DiffuEraser はしばしばぼかしアーティファクトを追加し、CoCoCo は指示追従がうまくいかないことを示している。
  • Hard サブセットにおける性能差が継続していることは、現在の手法では、残留する影のような物理的に引き起こされたアーティファクトを復元することが未解決の課題であることを強調している。

概要: 動画インスタンス除去(VIR)では、鏡面反射や照明の相互作用などの背景の整合性と物理的な一貫性を維持しながら、対象オブジェクトを除去する必要があります。テキストによる編集の進歩にもかかわらず、現在のベンチマークは主に視覚的なもっともらしさを評価しており、物体除去によって引き起こされる、残留する影などの物理的因果関係は見落とされがちです。私たちは、インスタンス精度のマスクと除去プロンプトが付与された高品質な動画95本を収録した、物理認識型動画インスタンス除去(PVIR)ベンチマークを提案します。PVIRはSimpleとHardの2つのサブセットに分割されており、後者は複雑な物理的相互作用を明示的に対象としています。私たちは4つの代表的手法、PISCO-Removal、UniVideo、DiffuEraser、CoCoCoを、人手評価プロトコルを分離(decoupled)した手順により、3つの次元にまたがって評価し、意味的・視覚的・空間的な失敗を切り分けます。評価指標は、指示追従、レンダリング品質、編集排他性です。結果として、PISCO-RemovalとUniVideoが最先端の性能を達成する一方で、DiffuEraserは頻繁にぼかしのアーティファクトを導入し、CoCoCoは指示追従で大きく苦戦することが分かりました。Hardサブセットで継続的に性能が低下することは、複雑な物理的な副作用を回復するという課題がいまだ残っていることを示しています。