AI Navigate

InfiniteDance: 実世界条件下での汎用化を目指すスケーラブルな3Dダンス生成

arXiv cs.CV / 2026/3/17

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 単眼動画から汎用的な3Dダンス生成を実現することを目指し、未見の音楽に対応するためにデータとモデル設計の両方を拡張します。
  • 足部接触と幾何的制約を用いて物理的妥当性を強制する Foot Restoration Diffusion Model(FRDM)を導入し、100.69時間のマルチモーダル3Dダンスデータセットを作成します。
  • 未知の音楽条件下でダンスプロンプトを参照するためのリトリーバル強化生成モジュールを備えた、LLaMAベースのスケーラブルなアーキテクチャ ChoreoLLaMA を提示します。
  • 遅い/速いカデンスの Mixture-of-Experts モジュールにより、モデルは異なるテンポ間でモーションのリズムを適応させます。
  • 実験では既存手法より改善が示され、著者らはコード・モデル・データの公開を予定しています。

要旨: 従来の3Dダンス生成手法は管理された状況では性能を発揮する一方で、野外環境での一般化にはしばしば苦戦する。未知の音楽で条件付けされた場合、従来の手法はしばしば組織立たない、または物理的に非現実的なダンスを生成する。これは主に音楽とダンスのデータが限られていることと、モデル容量の制限に起因する。本研究は、データとモデル設計の両方を拡張することで、一般化可能な3Dダンス生成の最前線を押し進めることを目的とする。 (1) データ側では、単眼動画から高忠実度の3Dダンスモーションを再構成する完全自動化パイプラインを開発する。既存の再構成手法に一般的に見られる物理的アーティファクトを排除するため、足接触条件と幾何的制約に導かれた Foot Restoration Diffusion Model (FRDM) を導入し、物理的妥当性を保証しつつ運動学的滑らかさと表現力を保持する。これにより、多様で高品質なマルチモーダル3Dダンスデータセットが総計100.69時間となる。 (2) モデル設計では、Choreographic LLaMA (ChoreoLLaMA) と呼ばれる、スケーラブルな LLaMA ベースのアーキテクチャを提案する。見慣れない音楽条件下での堅牢性を高めるため、検索拡張生成(RAG)モジュールを統合し、参照ダンスをプロンプトとして注入する。さらに、遅いテンポと速いテンポのカデンスに対して ChoreoLLaMA が滑らかに適応できる Slow/fast-cadence Mixture-of-Experts (MoE) モジュールを設計し、さまざまな音楽テンポに応じて運動リズムを滑らかに適応できるようにする。 広範な実験を多様なダンスジャンルにわたって行った結果、我々のアプローチは定性的評価と定量的評価の双方で既存手法を上回ることが示され、スケーラブルで現実世界の3Dダンス生成へ向けた一歩を示す。コード、モデル、およびデータは公開する。