ONE-SHOT：空間分離型モーション注入とハイブリッド文脈統合による構成的なヒューマン—環境ビデオ生成

arXiv cs.CV / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、被写体とシーンを微細な粒度で独立に編集することを目標とした、パラメータ効率の高いフレームワーク「ONE-SHOT」を提案する。
生成を、正準空間（canonical-space）におけるモーション注入アプローチとクロスアテンションにより、ヒトのダイナミクスと環境の手がかりを分離して独立性の高い信号に分解する。
ヒューリスティックな3D整合に頼らずに異なる空間ドメイン間で空間対応を生成するための、新しい位置埋め込み手法「Dynamic-Grounded-RoPE」を提案する。
長い時間幅（分単位）での生成に向けて、被写体と全体のシーン間の一貫性を保つ「Hybrid Context Integration」機構を追加する。
実験では、最先端のビデオ基盤モデル手法に比べて大幅な改善が得られたと主張しており、創造的多様性を維持しながら構造制御を向上させる。

要旨: 近年のビデオ基盤モデル（VFM）の進歩は、人間中心の動画合成に革新をもたらしましたが、被写体やシーンのきめ細かな独立編集は依然として重要な課題です。最近の取り組みでは、剛体な3D幾何学的構成によってより豊かな環境制御を取り込もうとするものが多いものの、正確な制御と生成の柔軟性の間には極めて厳しいトレードオフが生じがちです。さらに、重い3D事前処理は実用的なスケーラビリティも依然として制限しています。本論文では、構図に基づく人間—環境の動画生成のための、パラメータ効率の高い枠組みであるONE-SHOTを提案します。私たちの主要な着想は、生成プロセスを分離された信号に因数分解することです。具体的には、クロスアテンションにより、人間のダイナミクスを環境の手がかりから切り離す正準空間への注入メカニズムを導入します。また、Dynamic-Grounded-RoPEという新しい位置埋め込み戦略を提案し、いかなるヒューリスティックな3Dアライメントも用いることなく、異なる空間ドメイン間の空間対応関係を確立します。長い時間範囲の生成を支えるために、分単位レベルの生成にわたって被写体とシーンの整合性を維持する、Hybrid Context Integrationメカニズムも導入します。実験の結果、提案手法は最先端手法を大幅に上回り、動画合成において優れた構造制御と創造的多様性を提供することが示されました。プロジェクトは以下で公開しています: https://martayang.github.io/ONE-SHOT/.