TeMuDance:対照的アラインメントに基づく音楽駆動ダンス生成のためのテキスト制御
arXiv cs.CV / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- TeMuDanceは、音楽駆動ダンス生成における重要な課題として、単に自然さや音と動きの整合だけでなく、特定の動きを自然言語で意味的に制御できるようにする点を重視しています。
- 本手法は、手作業でアノテーションされた「音楽–テキスト–モーション」の三つ組データを不要にしつつ、モーションを共通の意味アンカーとして音楽–ダンスとテキスト–モーションの別々のデータを統一埋め込み空間で整合させます。
- さらに、凍結した「音楽からダンス」拡散モデルの上に軽量なテキスト制御ブランチを学習させることで、リズムの忠実さを保ちながら、言語による細かな運動指示を可能にします。
- 取得(リトリーバル)した教師データに含まれるノイズを抑えるため、デュアルストリームの微調整と信頼度ベースのフィルタリングを設計し、音楽条件下でプロンプトが意図した運動学的属性を引き起こせるかを測るタスク整合メトリクスも提案します。
- 実験結果では、TeMuDanceは従来手法と競争力のあるダンス品質を維持しつつ、自然言語の運動指示に対するテキスト条件制御を大幅に改善したと報告されています。
関連記事

新しいモデルが出るたびに、当然ながら古いモデルは時代遅れになる
Reddit r/LocalLLaMA

NVIDIA DGX SparkフルスタックAIハッカソンで作ったものが総合1位に—『Starfire』から『Molecules AI』へ
Dev.to

進捗を失わない:VS Codeでプロ仕様のJupyterワークフローをセットアップする(Colabのタイムアウトともおさらば!)
Dev.to

AgentOSを作る:保険請求の「AWS Lambda」を目指している理由
Dev.to

状況はここまで来た——1年で何もかも変わった:Kimi、Minimax、Qwen、Gemma、GLM
Reddit r/LocalLLaMA