[R] VOID: 動画オブジェクトと相互作用の削除(物理的整合性のある動画インペインティング)

Reddit r/MachineLearning / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • VOIDは、物体の見た目だけでなく、その物体がシーンのダイナミクスにどう影響するかを考慮することで、物理的に整合した結果を狙う動画インペインティング/オブジェクト除去モデルとして提示される。
  • この手法は反実仮想のシーン進展(counterfactual scene evolution)を用い、「その物体が最初からそこに存在しなかったら、動画はどのように見えるのか?」という問いを設定し、物体を除去した際にその後の出来事が変化すべき問題(例:ドミノ倒し、衝突の回避)に対処する。
  • KubricとHUMOTOで生成した反実仮想のペアデータで学習されており、視覚言語モデルを活用して、除去の影響を受ける領域/動きを導く。
  • VOIDは二段階の生成戦略を適用する。まず動きの変化を予測し、その後、フローワープ(flow-warped)したノイズで微調整して時間的整合性を高める。
  • 実世界の動画に関する人間の選好研究では、複数のベースライン(例:Runway/Aleph、Generative Omnimatte、ProPainter)よりもVOIDが64.8%の割合で選ばれ、物理的に相互作用するシーンにおける妥当性(プラウシビリティ)の向上が示された。
[R] VOID: Video Object and Interaction Deletion (physically-consistent video inpainting)

私たちは、見た目だけでなく*物理的な相互作用*を扱うことを目指した、動画オブジェクト除去のためのモデル「VOID」を提案します。

既存の多くの動画インペインティング/オブジェクト除去手法は、オブジェクトの背後を埋めること(たとえば、影や反射を取り除くこと)はできますが、除去されたオブジェクトがシーンのダイナミクスに影響している場合には失敗しがちです。

例えば:

- ドミノの連鎖が倒れている → 中央のブロックを取り除いても連鎖を止めるべき
- 2台の車がまさに衝突しようとしている → 1台の車を取り除けば衝突は起きないようにすべき

現在のモデルは通常、オブジェクト自体を取り除くだけで、その効果は変えないため、物理的に不自然な出力になります。

VOIDは、反実仮想(カウンターファクト)的なシーンの進展をモデル化することでこれに対処します:
「もしそのオブジェクトが最初から存在していなかったら、この動画はどのように見えるだろうか?」

主要なアイデア:

- 反実仮想の学習データ:オブジェクトがある/ないペアの動画(KubricとHUMOTOで生成)
- VLM(視覚言語モデル)に導かれるマスク:視覚言語モデルが、除去によって影響を受けるシーン内の領域を特定
- 2パス生成:まず新しい動きを予測し、その後、時間的な一貫性のためにフローでワープしたノイズで改良

実世界の動画を用いた人間の嗜好(プレファレンス)調査では、VOIDはRunway(Aleph)、Generative Omnimatte、ProPainterといったベースラインよりも64.8%の確率で選ばれました。

プロジェクトページ:https://void-model.github.io/
コード:https://github.com/Netflix/void-model
デモ:https://huggingface.co/spaces/sam-motamed/VOID
論文:https://arxiv.org/abs/2604.02296

質問があれば喜んでお答えします!

コンプレッサーを取り外して、アヒルを保存する。

submitted by /u/Least_Light6037
[link] [comments]