TokenDance：Bidirectional Mambaによるトークン間の音楽からダンス生成

arXiv cs.AI / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

TokenDanceは、限られた3Dダンスデータセットの範囲を超えて学習を拡張し、現実の音楽に対する汎化性能を向上させることを目的とした、2段階の音楽からダンス生成フレームワークとして提案される。
本手法では、有限スカラー量子化（Finite Scalar Quantization）を用いて、音楽とダンスの双方をトークン表現へ離散化する。運動については上半身／下半身の因子分解を含み、音楽については意味（セマンティック）／音響（アコースティック）のコードブックを分けて扱う。
有方向性双方向のMamba（Bidirectional Mamba）をバックボーンに持つ、ローカル・グローバル・ローカルのトークン間（token-to-token）生成器を導入し、音楽とダンスの強い整合性を維持しながら、首尾一貫したダンスを生成する。
自己回帰に依存しない効率的な非自己回帰（non-autoregressive）推論をサポートし、生成品質と推論速度の両面で最先端の結果を報告する。
本論文では、表現力豊かでリアルなダンス出力が重要となる、仮想現実（VR）、ダンス教育、デジタルキャラクターアニメーションにおいてTokenDanceが実用的に価値を持つことを位置づけている。

Abstract

音楽からダンスを生成する技術は、仮想現実、ダンス教育、デジタルキャラクターアニメーションなど幅広い用途に応用できます。しかし、既存の3Dダンスデータセットではカバー範囲が限られているため、現在のモデルは限られた音楽スタイルや振付パターンの一部にとどまってしまい、その結果として現実の音楽への汎化性能が低くなります。結果として、生成されるダンスはしばしば過度に単純で反復的になり、表現力と現実感が大きく損なわれます。この課題に取り組むため、我々はTokenDanceを提案します。これは、デュアルモーダルのトークン化と効率的なトークンレベル生成によって、この制限を明確に解決する2段階の音楽からダンス生成フレームワークです。第1段階では、有限スカラー量子化（Finite Scalar Quantization）によってダンスと音楽の両方を離散化します。ここでダンス動作は、運動学-動力学の制約のもと、上半身と下半身のコンポーネントに分解します。また音楽は、振付に固有の構造を捉えるための専用コードブックを用いて、セマンティック特徴と音響特徴に分解します。第2段階では、双方向Mambaバックボーンに基づくLocal-Global-Localのトークンからトークン生成器を導入し、整合的なモーション合成、強力な音楽-ダンスの対応、そして効率的な非自己回帰（non-autoregressive）推論を可能にします。大規模な実験により、TokenDanceは生成品質と推論速度の両面で全体として最先端（SOTA）の性能を達成しており、現実の音楽からダンスへの応用に対して有効で実用的な価値があることが示されます。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/31Dailyインサイトを見る →

みずほ証券・ぴあが挑む全工程AI駆動、開発のボトルネックは下流から上流に

日経XTECH

暗黙知をAIに学ばせただけでは形式知にならない

日経XTECH

AIで賢くなる組織、「文書」から「判断資産」へのデータ設計とナレッジ管理

日経XTECH

時系列基盤モデルが気軽な予測を可能に、小売業と好相性実用に3つの壁

日経XTECH

話題のコンテキストエンジニアリング、日本企業が後れを取る根深い理由

日経XTECH

TokenDance：Bidirectional Mambaによるトークン間の音楽からダンス生成

要点

Abstract

💡 この記事が使われたインサイト

関連記事

みずほ証券・ぴあが挑む全工程AI駆動、開発のボトルネックは下流から上流に

暗黙知をAIに学ばせただけでは形式知にならない

AIで賢くなる組織、「文書」から「判断資産」へのデータ設計とナレッジ管理

時系列基盤モデルが気軽な予測を可能に、小売業と好相性実用に3つの壁

話題のコンテキストエンジニアリング、日本企業が後れを取る根深い理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

💡 この記事が使われたインサイト

関連記事

みずほ証券・ぴあが挑む全工程AI駆動、開発のボトルネックは下流から上流に

暗黙知をAIに学ばせただけでは形式知にならない

AIで賢くなる組織、「文書」から「判断資産」へのデータ設計とナレッジ管理

時系列基盤モデルが気軽な予測を可能に、小売業と好相性 実用に3つの壁

話題のコンテキストエンジニアリング、日本企業が後れを取る根深い理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

時系列基盤モデルが気軽な予測を可能に、小売業と好相性実用に3つの壁