Motion-Adapter:複合動作のテキストからモーション生成のための拡散モデル・アダプタ
arXiv cs.CV / 2026/4/20
📰 ニュースModels & Research
要点
- 本論文は、既存のテキストからモーション生成の拡散モデルが、「catastrophic neglect(後半で前半が上書きされる)」「attention collapse(クロスアテンションでの特徴融合が過剰で崩れる)」という2つの問題により複合動作の生成が難しいと指摘している。
- 従来の対処として、非常に詳細なテキスト指定、身体部位の明示的な編集、LLMを用いた部位解釈などがあるが、それでも物理構造や運動学に関する意味表現が不十分になり、歩きながら挨拶のような自然な行動を取り込む能力が制限される。
- 提案手法のMotion-Adapterは、デノイズ過程で構造マスクとして用いるためにデカップルされたクロスアテンションマップを計算することで、複合動作生成を拡散モデルに対してプラグアンドプレイで導く。
- 実験結果では、Motion-Adapterが多様なテキストプロンプトに対してより忠実で首尾一貫した複合モーションを生成し、既存の最先端手法を上回ることが示されている。



