Director：動的シーンモデリングと理解のための、インスタンス対応（instance-aware）ガウススプラッティング

arXiv cs.CV / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、動的シーン向けに設計された統一型の時空間ガウス表現「Director」を提案しており、高忠実度の4Dレンダリングとインスタンスレベルの意味論を統合することで、より頑健な理解と追跡を目指している。
時間的に整合したインスタンスマスクと、マルチモーダルな大規模言語モデルから得た文埋め込みを用いて、ガウスレベルの学習可能な特徴を教師ありで学習することで意味的一貫性を向上させる。さらに、時間を通じたアイデンティティ一貫性を支えるために2つのMLPデコーダを用いる。
時間的なドリフトを抑え、安定性を高めるために、この手法は2D光フローと4Dガウスを統合し、その運動を微調整する。得られるアラインメントを用いて、より信頼性の高い初期化を行う。
学習には、表面の連続性を強制する幾何学に配慮したSDF制約と正則化項も組み込み、動的な前景モデリングにおけるより良い時間的一貫性を狙う。
実験により、Directorが時間的に整合した4D再構成を生成できることに加え、インスタンス分割と、シーンに対するオープンボキャブラリ（言語条件付き）のクエリが可能になることが報告されている。

要旨: ボリュメトリック・ビデオは、動的なシーンを時間的に整合した4次元表現としてモデル化することを目指します。近年のガウスベースの手法は目を見張る描画品質を実現していますが、主に見た目（外観）を重視する一方で、インスタンス単位の構造にはほとんど無関係であり、その結果、高度に動的な状況における安定したトラッキングや意味推論が制限されます。本論文では、人の動作（performace）、高忠実度レンダリング、インスタンス単位のセマンティクスを同時にモデル化する統一型の時空間ガウス表現であるDirectorを提案します。主要な着想は、インスタンス整合的なセマンティクスを埋め込むことが4Dモデリングを自然に補完し、より正確なシーン分解を可能にするとともに、頑健な動的シーン理解を支える点にあります。そのために、Multimodal Large Language Modelsから導出した、時間的に整合したインスタンスマスクと文埋め込みを活用し、2つのMLPデコーダを介して、各ガウスの学習可能な意味的特徴を教師ありで学習します。これにより、言語に整合した4D表現を実現し、時間をまたいだ同一性の一貫性を強制します。時間的安定性を高めるために、2D光フローを4Dガウスと橋渡しし、それらの動きを微調整することで、信頼できる初期化とドリフトの低減を行います。さらに学習では、幾何学に配慮したSDF制約と、表面の連続性を強制する正則化項を導入し、動的な前景モデリングにおける時間的なコヒーレンスを高めます。実験の結果、Directorは、時間的にコヒーレントな4D再構成を達成しつつ、インスタンス分割とオープンボキャブラリの問い合わせも同時に可能にすることが示されます。