すべてのフレームが同等ではない：モーションのスペクトル記述子による複雑性を意識したマスクド・モーション生成

arXiv cs.CV / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、テキストからモーションを生成するマスク付き生成モデルが、時間とともに運動ダイナミクスが大きく変化するにもかかわらず、すべてのモーションフレームをあまりに一様に扱っていると主張し、その結果として複雑なセグメントで過度な劣化が生じることを示す。
運動速度の短時間スペクトルから計算される、決定的かつパラメータ不要の局所的ダイナミック複雑性指標として、Motion Spectral Descriptor（MSD）を提案する。MSDは解釈可能であり、モーション信号から直接導出される。
提案するDynMaskは、MSDを用いてマスクド・モーション生成を複雑性に応じて行う。具体的には、学習時に内容に焦点を当てたマスキングを導き、自己注意にスペクトル類似性の事前知識を追加し、さらに反復デコーディング時にトークン単位のサンプリングを（任意で）変調する。
実験により、DynMaskは動的に複雑なモーションで特に生成改善が明確であり、HumanML3DおよびKIT-MLにおいて全体としてより強いFIDを達成することが示され、マスクド・モーション生成において局所的なモーション複雑性を尊重するという設計原理を支持する。

要約: マスクされた生成モデルは、テキストからモーションを生成する分野において強力なパラダイムとなっているものの、マスキング、注意（attention）、デコーディングの際にモーションのフレームをあまりにも一様に扱っています。これは、時間とともに局所的な動的複雑さが急激に変化するモーションの性質とは一致しないものです。本研究では、現在のマスク付きモーション生成器が、動的に複雑なモーションに対して不釣り合いに大きく劣化すること、そしてフレームごとの生成誤差がモーションのダイナミクスと強く相関していることを示します。この不一致に動機づけられ、モーション速度の短時間スペクトルから算出される、局所的な動的複雑さを測るシンプルでパラメータ不要の指標である「Motion Spectral Descriptor（MSD）」を提案します。学習に基づく難しさ予測器とは異なり、MSDは決定論的で、解釈可能であり、モーション信号そのものから直接導出されます。私たちはMSDを用いて、マスク付きモーション生成を複雑さに応じて制御（complexity-aware）します。具体的には、学習中のコンテンツ重視のマスキングを導き、自己注意に対するスペクトル類似の事前知識を与え、さらに反復デコーディング中のトークンレベルのサンプリングを調整することも可能です。マスク付きモーション生成器の上に構築した本手法であるDynMaskは、動的に複雑なモーションに対して最も明確にモーション生成を改善しつつ、HumanML3DおよびKIT-MLにおいてより強い全体FIDも得ます。これらの結果は、局所的なモーション複雑さを尊重することが、マスク付きモーション生成における有用な設計原理であることを示唆しています。プロジェクトページ: https://xiangyue-zhang.github.io/DynMask