| 私たちは、見た目だけでなく*物理的な相互作用*を扱うことを目指した、動画オブジェクト除去のためのモデル「VOID」を提案します。 既存の多くの動画インペインティング/オブジェクト除去手法は、オブジェクトの背後を埋めること(たとえば、影や反射を取り除くこと)はできますが、除去されたオブジェクトがシーンのダイナミクスに影響している場合には失敗しがちです。 例えば: - ドミノの連鎖が倒れている → 中央のブロックを取り除いても連鎖を止めるべき- 2台の車がまさに衝突しようとしている → 1台の車を取り除けば衝突は起きないようにすべき 現在のモデルは通常、オブジェクト自体を取り除くだけで、その効果は変えないため、物理的に不自然な出力になります。 VOIDは、反実仮想(カウンターファクト)的なシーンの進展をモデル化することでこれに対処します: 主要なアイデア: - 反実仮想の学習データ:オブジェクトがある/ないペアの動画(KubricとHUMOTOで生成)- VLM(視覚言語モデル)に導かれるマスク:視覚言語モデルが、除去によって影響を受けるシーン内の領域を特定 - 2パス生成:まず新しい動きを予測し、その後、時間的な一貫性のためにフローでワープしたノイズで改良 実世界の動画を用いた人間の嗜好(プレファレンス)調査では、VOIDはRunway(Aleph)、Generative Omnimatte、ProPainterといったベースラインよりも64.8%の確率で選ばれました。 プロジェクトページ:https://void-model.github.io/ 質問があれば喜んでお答えします! [link] [comments] |
[R] VOID: 動画オブジェクトと相互作用の削除(物理的整合性のある動画インペインティング)
Reddit r/MachineLearning / 2026/4/3
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- VOIDは、物体の見た目だけでなく、その物体がシーンのダイナミクスにどう影響するかを考慮することで、物理的に整合した結果を狙う動画インペインティング/オブジェクト除去モデルとして提示される。
- この手法は反実仮想のシーン進展(counterfactual scene evolution)を用い、「その物体が最初からそこに存在しなかったら、動画はどのように見えるのか?」という問いを設定し、物体を除去した際にその後の出来事が変化すべき問題(例:ドミノ倒し、衝突の回避)に対処する。
- KubricとHUMOTOで生成した反実仮想のペアデータで学習されており、視覚言語モデルを活用して、除去の影響を受ける領域/動きを導く。
- VOIDは二段階の生成戦略を適用する。まず動きの変化を予測し、その後、フローワープ(flow-warped)したノイズで微調整して時間的整合性を高める。
- 実世界の動画に関する人間の選好研究では、複数のベースライン(例:Runway/Aleph、Generative Omnimatte、ProPainter)よりもVOIDが64.8%の割合で選ばれ、物理的に相互作用するシーンにおける妥当性(プラウシビリティ)の向上が示された。




