マルチビュー・事前情報による制御可能な動画オブジェクト挿入

arXiv cs.CV / 2026/4/17

📰 ニュースModels & Research

共有:

要点

本論文は、既存動画に新しいオブジェクトを動的に挿入する「動画オブジェクト挿入」問題を扱い、オブジェクトの一貫した外観（アイデンティティ）、空間的整合性、時間的な連続性の維持に焦点を当てている。
2Dの参照画像をマルチビュー表現へ持ち上げ、デュアルパスのビュー整合に基づく条件付け機構を用いることで、視点が変わっても外観の安定性を高める方法を提案している。
ノイズや不完全な入力に対処するため、入力の品質を見て重み付けを適応的に行う品質対応の重み付け機構を組み込んでいる。
「統合（Integration）を意識した整合モジュール」を導入し、空間的なリアリティを高めることで、遮蔽や境界アーティファクトを抑えつつフレーム間の連続性も維持することを狙っている。
実験では、挿入結果の品質と現実感が大きく改善され、全体としてより安定した統合が得られることを報告している。

概要: ビデオオブジェクト挿入は、既存の環境に新しいオブジェクトを動的に挿入するための重要なタスクである。従来のビデオ生成手法は、主としてシーン全体の合成に注力してきたが、既存のビデオにオブジェクトを挿入する際に、オブジェクトの外観の一貫性、空間的整合、そして時間的一貫性を確実に保つことには苦戦している。本論文では、動的環境における外観の不一致やオクルージョン（遮蔽）の取り扱いといった共通課題に対処するために、多視点のオブジェクト事前知識を統合する、ビデオオブジェクト挿入のための新規な解決策を提案する。2Dの参照画像を多視点表現へと持ち上げ、デュアルパスの視点整合コンディショニング機構を活用することで、我々の枠組みは、多様な視点にわたって安定したアイデンティティのガイダンスと頑健な統合を実現する。さらに、ノイズや不完全な入力を適応的に扱うための、品質に応じた重み付け機構も採用する。加えて、統合を意識した一貫性モジュール（Integration-Aware Consistency Module）を導入し、空間的な写実性を保証することで、オクルージョンや境界アーティファクトを効果的に解決しつつ、フレーム間で時間的な連続性を維持する。実験結果は、提案手法がビデオオブジェクト挿入の品質を大幅に向上させ、安定かつ現実的な統合を提供することを示している。