モジュール化された体部位の位相制御によるテキストからのモーション生成の可制御性

arXiv cs.CV / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、テキストからモーション生成における局所編集のための、プラグアンドプレイ型フレームワーク「モジュラー体部位位相制御（Modular Body-Part Phase Control）」を提案する。
体部位のダイナミクスを、振幅・周波数・位相シフト・オフセットを備えた正弦波状の位相信号として扱い、コンパクトで解釈可能な制御を実現する。
モジュール化されたPhase ControlNetブランチは、これらの部位信号を残差特徴モジュレーションを介して注入し、局所編集をバックボーン生成器からデカップリングする。
拡散モデルおよびフロー型モデルを用いた実験結果は、モーションの大きさ、速度、タイミングを予測可能で細粒度に制御できるとともに、全体的なモーションの整合性を保持することを示している。

要約: テキストからモーション（T2M）生成は、アニメーションやインタラクティブなアバターのための実用的なツールとなりつつあります。しかし、全体の動きの一貫性を維持しつつ特定の身体部位を修正することは依然として難しいです。既存の手法は通常、扱いにくく高次元のジョイント制約（例：軌道）に依存しており、ユーザーフレンドリーで反復的な改良を妨げます。これに対処するため、構造化された局所編集を、コンパクトなスカラー型の位相インターフェースを介して可能にする、プラグアンドプレイ対応のフレームワーク「モジュラー身体部位位相制御」を提案します。身体部位の潜在モーションチャンネルを振幅、周波数、位相シフト、オフセットで特徴づけられる正弦波位相信号としてモデル化することにより、部位特有のダイナミクスを捉える解釈可能なコードを抽出します。モジュール化された Phase ControlNet のブランチが、この信号を残差特徴モジュレーションを介して注入し、制御を生成バックボーンからシームレスに切り離します。拡散モデルとフロー型モデルの両方での実験は、私たちのアプローチが動作の大きさ、速さ、タイミングを予測可能で細かな制御を提供することを示しています。これによりグローバルな動きの一貫性が保持され、制御可能な T2M 生成のための実用的なパラダイムを提供します。プロジェクトページ: https://jixiii.github.io/bp-phase-project-page/