DanceCrafter:振付の構文による細粒度のテキスト駆動・制御可能なダンス生成

arXiv cs.AI / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は「Choreographic Syntax」という新しい理論フレームワークを提案し、複雑なテキスト駆動の制御可能な振付をより適切に記述・注釈化します。
  • 「DanceFlow」と呼ばれる高い粒度のデータセットを構築し、プロのダンスアーカイブと高精度モーションキャプチャを組み合わせて、41時間のモーションと6.34百万語の詳細記述を収録します。
  • 「DanceCrafter」はMomentum Human Rigを基盤にしたモーション・トランスフォーマで、連続マニフォールド表現とハイブリッド正規化により学習の安定性を高めます。
  • さらに、体の各部が持つ「分離した動き」の自然さを制御するアナトミー対応の損失関数を用いることで、安定した高忠実度のダンス生成を実現します。
  • 幅広い評価とユーザースタディにより、生成ダンスの動作品質、細粒度な制御性、自然さにおいて最先端の性能が報告されています。

要旨: テキスト駆動の制御可能なダンス生成は、主に高品質データセットの深刻な不足と、複雑な振付を言語化することの本質的な難しさにより、十分に研究されていません。ダンスの特徴付けは、複雑な空間ダイナミクス、強い方向性、そして身体の異なる部位の動きが高度に独立していることに起因して、特に困難です。これらのボトルネックを克服するために、本研究ではダンス研究、人間の解剖学、バイオメカニクスの原理を結び付け、
\textit{Choreographic Syntax(振付構文)} という、特化した注釈システムを伴う新しい理論的枠組みを提案します。この構文に基づき、プロのダンスアーカイブと高精度なモーションキャプチャデータを組み合わせて、今日までで最も微細なダンスデータセットとなる
\textbf{DanceFlow} を構築します。これは、高品質なモーション41時間と、詳細な記述6.34百万語を対応付けて含みます。モデルのレベルでは、Momentum Human Rig を土台として構築した、特化されたモーション・トランスフォーマである
\textbf{DanceCrafter} を導入します。最適化の不安定性を回避するために、連続的なマニフォールド(多様体)上のモーション表現を構築し、そこにハイブリッドな正規化戦略を組み合わせます。さらに、身体部位の独立性(デカップリングされた性質)を明示的に制御するための、解剖学に配慮した損失関数を設計します。これらの改良により、DanceCrafter は複雑なダンス系列を高精度かつ安定に生成することが可能になります。大規模な評価とユーザースタディにより、モーションの品質、きめ細かな制御性、生成の自然さにおいて最先端の性能を示すことを確認します。