AI Navigate

遮蔽を考慮した疎な3D手関節による自視点動画生成

arXiv cs.CV / 2026/3/13

💬 オピニオンModels & Research

要点

  • 本論文は、単一の参照フレームから自視点動画を生成するためのフレームワークを提案する。疎な3D手関節を embodiment-agnostic な制御信号として用い、明確な意味論的・幾何学的構造を備える。
  • 遮蔽を考慮した制御モジュールを導入し、隠れた関節からの信号の信頼性を解消し、動的に遮蔽されるターゲット関節を運動伝搬中に堅牢に扱う3Dベースの重み付け機構を採用する。
  • この手法は潜在空間へ3D幾何埋め込みを注入して構造的一貫性を厳密に保ち、正確な手の軌跡を伴う100万件を超える高品質な自視点動画クリップを自動で作成するアノテーションパイプラインを開発し、跨身体表現ベンチマークを構築する。
  • 豊富な実験により、提案手法は最先端のベースラインを大幅に上回り、ロボットハンドへの跨身体表現一般化にも優れていることを示している。
モーション制御可能な動画生成は、仮想現実や具現化AIにおける自視点アプリケーションにとって極めて重要である。しかし、既存の手法は3Dで一貫した精緻な手の関節運動を実現することがしばしば難しい。2D軌道や暗黙のポーズに依拠することで、3D幾何を空間的に曖昧な信号に崩し、人間中心の事前情報に過度に依存してしまう。ひどい自視点の遮蔽下では、これが運動の一貫性の欠如と幻像的アーティファクトを引き起こし、跨身体表現としてのロボットハンドへの一般化を妨げる。これらの制約に対処するため、単一の参照フレームから自視点動画を生成する新規フレームワークを提案する。疎な3D手関節を embodiment-agnostic 制御信号として用い、明確な意味論的・幾何学的構造を持つ。効率的な制御モジュールを導入し、遮蔽の曖昧さを解消する一方で3D情報を完全に保持する。具体的には、隠れた関節からの信号が信頼できない場合をペナルティすることで参照元フレームから遮蔽対応特徴を抽出し、運動伝搬中に動的に遮蔽されるターゲット関節を堅牢に処理する3Dベースの重み付け機構を採用する。併せて、潜在空間へ直接3D幾何埋め込みを注入して構造的一貫性を厳密に担保する。頑健な訓練と評価を促進するため、正確な手の軌跡と対になる高品質な自視点動画クリップを100万件超生成する自動アノテーションパイプラインを開発する。さらに、人型ヒューマノイドの運動学データとカメラデータを登録して跨身体表現ベンチマークを構築する。大量の実験により、本手法は最先端のベースラインを大幅に上回り、現実的なインタラクションを伴う高忠実度の自視点動画を生成し、ロボットハンドへの跨身体表現一般化にも卓越していることを示している。