TokenDance:Bidirectional Mambaによるトークン間の音楽からダンス生成
arXiv cs.AI / 2026/3/31
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- TokenDanceは、限られた3Dダンスデータセットの範囲を超えて学習を拡張し、現実の音楽に対する汎化性能を向上させることを目的とした、2段階の音楽からダンス生成フレームワークとして提案される。
- 本手法では、有限スカラー量子化(Finite Scalar Quantization)を用いて、音楽とダンスの双方をトークン表現へ離散化する。運動については上半身/下半身の因子分解を含み、音楽については意味(セマンティック)/音響(アコースティック)のコードブックを分けて扱う。
- 有方向性双方向のMamba(Bidirectional Mamba)をバックボーンに持つ、ローカル・グローバル・ローカルのトークン間(token-to-token)生成器を導入し、音楽とダンスの強い整合性を維持しながら、首尾一貫したダンスを生成する。
- 自己回帰に依存しない効率的な非自己回帰(non-autoregressive)推論をサポートし、生成品質と推論速度の両面で最先端の結果を報告する。
- 本論文では、表現力豊かでリアルなダンス出力が重要となる、仮想現実(VR)、ダンス教育、デジタルキャラクターアニメーションにおいてTokenDanceが実用的に価値を持つことを位置づけている。




