TeMuDance：対照的アラインメントに基づく音楽駆動ダンス生成のためのテキスト制御

arXiv cs.CV / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

TeMuDanceは、音楽駆動ダンス生成における重要な課題として、単に自然さや音と動きの整合だけでなく、特定の動きを自然言語で意味的に制御できるようにする点を重視しています。
本手法は、手作業でアノテーションされた「音楽–テキスト–モーション」の三つ組データを不要にしつつ、モーションを共通の意味アンカーとして音楽–ダンスとテキスト–モーションの別々のデータを統一埋め込み空間で整合させます。
さらに、凍結した「音楽からダンス」拡散モデルの上に軽量なテキスト制御ブランチを学習させることで、リズムの忠実さを保ちながら、言語による細かな運動指示を可能にします。
取得（リトリーバル）した教師データに含まれるノイズを抑えるため、デュアルストリームの微調整と信頼度ベースのフィルタリングを設計し、音楽条件下でプロンプトが意図した運動学的属性を引き起こせるかを測るタスク整合メトリクスも提案します。
実験結果では、TeMuDanceは従来手法と競争力のあるダンス品質を維持しつつ、自然言語の運動指示に対するテキスト条件制御を大幅に改善したと報告されています。

Abstract

既存の音楽駆動によるダンス生成アプローチは、高い写実性と効果的な音響—運動アライメントを達成してきました。しかし、一般に意味的な制御性が欠けているため、自然言語の記述を通じて特定の動きを導くことが困難です。この制限は主に、大規模なデータセットが存在せず、教師あり学習のために音楽・テキスト・モーションを同時に整列させたものが得られないことに起因します。これに対処するために、本論文ではTeMuDanceという枠組みを提案します。これは、手作業で注釈付けされた「音楽—テキスト—モーション」三つ組データセットを一切必要とせずに、音楽条件付きダンス生成をテキストに基づいて制御できるようにするものです。TeMuDanceでは、モーションを共通の意味アンカーとして活用し、非連結な音楽—ダンスデータセットとテキスト—モーションデータセットを統一された埋め込み空間内で整列させる、モーション中心のブリッジング（架橋）パラダイムを導入します。これにより、欠落したモダリティをクロスモーダルに検索してエンドツーエンド学習を可能にします。次に、固定された音楽からダンスへの拡散バックボーンの上に、軽量なテキスト制御ブランチを学習させます。これによりリズムの忠実性を維持しつつ、きめ細かな意味的ガイダンスを可能にします。さらに、検索によって得られる教師データに内在するノイズを抑制するために、信頼度に基づくフィルタリングを伴うデュアルストリームの微調整戦略を設計します。また、音楽条件付けのもとで、テキストのプロンプトが意図した運動学的属性を誘発できているかどうかを定量化する、新しいタスク整合型メトリックも提案します。大規模な実験により、TeMuDanceが既存手法に対してテキスト条件付き制御を大幅に改善しつつ、競争力のあるダンス品質を達成することが示されます。