広告

TokenDance:Bidirectional Mambaによるトークン間の音楽からダンス生成

arXiv cs.AI / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • TokenDanceは、限られた3Dダンスデータセットの範囲を超えて学習を拡張し、現実の音楽に対する汎化性能を向上させることを目的とした、2段階の音楽からダンス生成フレームワークとして提案される。
  • 本手法では、有限スカラー量子化(Finite Scalar Quantization)を用いて、音楽とダンスの双方をトークン表現へ離散化する。運動については上半身/下半身の因子分解を含み、音楽については意味(セマンティック)/音響(アコースティック)のコードブックを分けて扱う。
  • 有方向性双方向のMamba(Bidirectional Mamba)をバックボーンに持つ、ローカル・グローバル・ローカルのトークン間(token-to-token)生成器を導入し、音楽とダンスの強い整合性を維持しながら、首尾一貫したダンスを生成する。
  • 自己回帰に依存しない効率的な非自己回帰(non-autoregressive)推論をサポートし、生成品質と推論速度の両面で最先端の結果を報告する。
  • 本論文では、表現力豊かでリアルなダンス出力が重要となる、仮想現実(VR)、ダンス教育、デジタルキャラクターアニメーションにおいてTokenDanceが実用的に価値を持つことを位置づけている。

Abstract

音楽からダンスを生成する技術は、仮想現実、ダンス教育、デジタルキャラクターアニメーションなど幅広い用途に応用できます。しかし、既存の3Dダンスデータセットではカバー範囲が限られているため、現在のモデルは限られた音楽スタイルや振付パターンの一部にとどまってしまい、その結果として現実の音楽への汎化性能が低くなります。結果として、生成されるダンスはしばしば過度に単純で反復的になり、表現力と現実感が大きく損なわれます。 この課題に取り組むため、我々はTokenDanceを提案します。これは、デュアルモーダルのトークン化と効率的なトークンレベル生成によって、この制限を明確に解決する2段階の音楽からダンス生成フレームワークです。第1段階では、有限スカラー量子化(Finite Scalar Quantization)によってダンスと音楽の両方を離散化します。ここでダンス動作は、運動学-動力学の制約のもと、上半身と下半身のコンポーネントに分解します。また音楽は、振付に固有の構造を捉えるための専用コードブックを用いて、セマンティック特徴と音響特徴に分解します。第2段階では、双方向Mambaバックボーンに基づくLocal-Global-Localのトークンからトークン生成器を導入し、整合的なモーション合成、強力な音楽-ダンスの対応、そして効率的な非自己回帰(non-autoregressive)推論を可能にします。大規模な実験により、TokenDanceは生成品質と推論速度の両面で全体として最先端(SOTA)の性能を達成しており、現実の音楽からダンスへの応用に対して有効で実用的な価値があることが示されます。

広告