MotionHiFlow:階層的フローマッチングによるテキストからのモーション生成

arXiv cs.CV / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • MotionHiFlowは、低い時間スケールから高い時間スケールへ段階的にモーションを生成する、階層的フローマッチングに基づく新しいテキストからのモーション生成フレームワークである。
  • 低スケールのフローは高レベルの意味理解と粗い動作構造を学習し、高スケールのフローは細かな時間的ディテールを磨き上げることで時間的一貫性を高める。
  • 異なるスケール間のクロススケール遷移プロセスを導入し、スケールをまたぐ連続性を保ちながらノイズ整合性も維持する。
  • Text-Motion Diffusion Transformerと、トポロジーを考慮したMotion VAEを組み合わせることで、関節の構造的依存関係を、関節対応の位置埋め込みと骨格トポロジーによって明示的にモデル化する。
  • HumanML3DおよびKIT-MLベンチマークで高い性能(SOTA)を示し、アブレーション研究で階層設計と主要コンポーネントの有効性が裏付けられている;コードはGitHubで公開されている。

要旨: テキストから動作への生成は、入力テキストに厳密に対応した3Dの人間の動作を生成しつつ、物理的にもっともらしく、かつ微細なディテールに富んだものにすることを目指します。近年の手法では複雑で自然な動きを生成できますが、通常は単一の時間スケールでのみ動作を扱うため、意味的な整合性と時間的な一貫性の両方が制限されます。人間の認知システムでは複雑な動作が単一の時間スケールではなく階層的に概念化されるという事実に着想を得て、我々は extit{MotionHiFlow} という階層的フローマッチングの枠組みを提案します。この枠組みでは、低い時間スケールから高い時間スケールへとフローパスを構築することで、動作を段階的に生成します。低いスケールのフローは高レベルの意味と粗い動作構造を捉え、高いスケールのフローは時間的な詳細を洗練します。スケール間のフローをつなぐために、連続性を保証し、ノイズの整合性を保持する新しいスケール間遷移プロセスを導入します。さらに、Text-Motion Diffusion Transformer とトポロジーを意識した Motion VAE を統合することで、MotionHiFlow は、関節対応の位置エンコーディングおよび骨格トポロジーを介して、関節間の構造的な依存関係を明示的にモデル化し、微細な動作ディテールとともに正確な意味的整合を実現します。HumanML3D および KIT-ML ベンチマークでの大規模な実験により最先端の性能が示され、アブレーション研究によって階層的設計と主要コンポーネントの有効性が確認されています。コードは https://github.com/ai-lh/MotionHiFlow で公開されています。