[R] VOID: 動画オブジェクトと相互作用の削除（物理的整合性のある動画インペインティング）

Reddit r/MachineLearning / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

VOIDは、物体の見た目だけでなく、その物体がシーンのダイナミクスにどう影響するかを考慮することで、物理的に整合した結果を狙う動画インペインティング／オブジェクト除去モデルとして提示される。
この手法は反実仮想のシーン進展（counterfactual scene evolution）を用い、「その物体が最初からそこに存在しなかったら、動画はどのように見えるのか？」という問いを設定し、物体を除去した際にその後の出来事が変化すべき問題（例：ドミノ倒し、衝突の回避）に対処する。
KubricとHUMOTOで生成した反実仮想のペアデータで学習されており、視覚言語モデルを活用して、除去の影響を受ける領域／動きを導く。
VOIDは二段階の生成戦略を適用する。まず動きの変化を予測し、その後、フローワープ（flow-warped）したノイズで微調整して時間的整合性を高める。
実世界の動画に関する人間の選好研究では、複数のベースライン（例：Runway/Aleph、Generative Omnimatte、ProPainter）よりもVOIDが64.8%の割合で選ばれ、物理的に相互作用するシーンにおける妥当性（プラウシビリティ）の向上が示された。

[R] VOID: Video Object and Interaction Deletion (physically-consistent video inpainting)

私たちは、見た目だけでなく*物理的な相互作用*を扱うことを目指した、動画オブジェクト除去のためのモデル「VOID」を提案します。

既存の多くの動画インペインティング／オブジェクト除去手法は、オブジェクトの背後を埋めること（たとえば、影や反射を取り除くこと）はできますが、除去されたオブジェクトがシーンのダイナミクスに影響している場合には失敗しがちです。

例えば：

- ドミノの連鎖が倒れている → 中央のブロックを取り除いても連鎖を止めるべき
- 2台の車がまさに衝突しようとしている → 1台の車を取り除けば衝突は起きないようにすべき

現在のモデルは通常、オブジェクト自体を取り除くだけで、その効果は変えないため、物理的に不自然な出力になります。

VOIDは、反実仮想（カウンターファクト）的なシーンの進展をモデル化することでこれに対処します：
「もしそのオブジェクトが最初から存在していなかったら、この動画はどのように見えるだろうか？」

主要なアイデア：

- 反実仮想の学習データ：オブジェクトがある／ないペアの動画（KubricとHUMOTOで生成）
- VLM（視覚言語モデル）に導かれるマスク：視覚言語モデルが、除去によって影響を受けるシーン内の領域を特定
- 2パス生成：まず新しい動きを予測し、その後、時間的な一貫性のためにフローでワープしたノイズで改良

実世界の動画を用いた人間の嗜好（プレファレンス）調査では、VOIDはRunway（Aleph）、Generative Omnimatte、ProPainterといったベースラインよりも64.8%の確率で選ばれました。

プロジェクトページ：https://void-model.github.io/
コード：https://github.com/Netflix/void-model
デモ：https://huggingface.co/spaces/sam-motamed/VOID
論文：https://arxiv.org/abs/2604.02296

質問があれば喜んでお答えします！

コンプレッサーを取り外して、アヒルを保存する。

submitted by /u/Least_Light6037
[link] [comments]