Motion-Adapter:複合動作のテキストからモーション生成のための拡散モデル・アダプタ

arXiv cs.CV / 2026/4/20

📰 ニュースModels & Research

要点

  • 本論文は、既存のテキストからモーション生成の拡散モデルが、「catastrophic neglect(後半で前半が上書きされる)」「attention collapse(クロスアテンションでの特徴融合が過剰で崩れる)」という2つの問題により複合動作の生成が難しいと指摘している。
  • 従来の対処として、非常に詳細なテキスト指定、身体部位の明示的な編集、LLMを用いた部位解釈などがあるが、それでも物理構造や運動学に関する意味表現が不十分になり、歩きながら挨拶のような自然な行動を取り込む能力が制限される。
  • 提案手法のMotion-Adapterは、デノイズ過程で構造マスクとして用いるためにデカップルされたクロスアテンションマップを計算することで、複合動作生成を拡散モデルに対してプラグアンドプレイで導く。
  • 実験結果では、Motion-Adapterが多様なテキストプロンプトに対してより忠実で首尾一貫した複合モーションを生成し、既存の最先端手法を上回ることが示されている。

Abstract

生成的モーション合成における最近の進歩により、多様な入力モダリティから現実的な人間の動作を生成できるようになりました。しかし、複数の同時進行する動作を統合して、首尾一貫した全身のシーケンスとして表現するテキストからの複合動作の合成は、依然として大きな課題です。私たちは、現在のテキスト・トゥ・モーション拡散モデルにおける2つの重要な制限を特定します: (i) 壊滅的な看過(catastrophic neglect)で、時間情報の取り扱いが不適切であるために、後続の動作によって前の動作が上書きされてしまう問題、(ii) 注意崩壊(attention collapse)で、クロスアテンション機構における過剰な特徴融合によって生じる問題です。その結果、既存の手法はしばしば、過度に詳細なテキスト記述(例: 右手を上げる)や、身体部位の明示的な指定(例: 上半身を編集する)、あるいは身体部位の解釈にLLM(大規模言語モデル)を用いることに依存しています。これらの方策は、物理構造や運動学的メカニズムに関する不十分な意味表現をもたらし、その結果、歩きながら挨拶するなどの自然な振る舞いを取り込む能力が制限されます。これらの問題に対処するために、私たちはMotion-Adapterを提案します。これは、デノイズ過程の間に構造マスクとして機能するデカップルしたクロスアテンションマップを計算することで、テキスト・トゥ・モーション拡散モデルを複合動作の生成へと導く、プラグ・アンド・プレイ型のモジュールです。大規模な実験により、提案手法は多様なテキストプロンプトに対して、一貫してより忠実で首尾一貫した複合モーションを生成でき、最先端手法を上回ることが示されました。