MotionHiFlow：階層的フローマッチングによるテキストからのモーション生成

arXiv cs.CV / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

MotionHiFlowは、低い時間スケールから高い時間スケールへ段階的にモーションを生成する、階層的フローマッチングに基づく新しいテキストからのモーション生成フレームワークである。
低スケールのフローは高レベルの意味理解と粗い動作構造を学習し、高スケールのフローは細かな時間的ディテールを磨き上げることで時間的一貫性を高める。
異なるスケール間のクロススケール遷移プロセスを導入し、スケールをまたぐ連続性を保ちながらノイズ整合性も維持する。
Text-Motion Diffusion Transformerと、トポロジーを考慮したMotion VAEを組み合わせることで、関節の構造的依存関係を、関節対応の位置埋め込みと骨格トポロジーによって明示的にモデル化する。
HumanML3DおよびKIT-MLベンチマークで高い性能（SOTA）を示し、アブレーション研究で階層設計と主要コンポーネントの有効性が裏付けられている；コードはGitHubで公開されている。

要旨: テキストから動作への生成は、入力テキストに厳密に対応した3Dの人間の動作を生成しつつ、物理的にもっともらしく、かつ微細なディテールに富んだものにすることを目指します。近年の手法では複雑で自然な動きを生成できますが、通常は単一の時間スケールでのみ動作を扱うため、意味的な整合性と時間的な一貫性の両方が制限されます。人間の認知システムでは複雑な動作が単一の時間スケールではなく階層的に概念化されるという事実に着想を得て、我々は extit{MotionHiFlow} という階層的フローマッチングの枠組みを提案します。この枠組みでは、低い時間スケールから高い時間スケールへとフローパスを構築することで、動作を段階的に生成します。低いスケールのフローは高レベルの意味と粗い動作構造を捉え、高いスケールのフローは時間的な詳細を洗練します。スケール間のフローをつなぐために、連続性を保証し、ノイズの整合性を保持する新しいスケール間遷移プロセスを導入します。さらに、Text-Motion Diffusion Transformer とトポロジーを意識した Motion VAE を統合することで、MotionHiFlow は、関節対応の位置エンコーディングおよび骨格トポロジーを介して、関節間の構造的な依存関係を明示的にモデル化し、微細な動作ディテールとともに正確な意味的整合を実現します。HumanML3D および KIT-ML ベンチマークでの大規模な実験により最先端の性能が示され、アブレーション研究によって階層的設計と主要コンポーネントの有効性が確認されています。コードは https://github.com/ai-lh/MotionHiFlow で公開されています。

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

日経XTECH

大手テック企業がAI投資と統合を加速、規制当局と企業は安全性と責任ある導入を重視

Dev.to

Claude Codeのフックで開発ワークフローを自動化する方法

Dev.to

同じエージェントでもリスクは別：Microsoft 365 Copilotのグラウンディングがセキュリティモデルをどう変えるか｜Rahsi Framework™

Dev.to

低コストAI推論のためのClaude Haiku活用：競馬予測システムから見えるパターン

Dev.to

MotionHiFlow：階層的フローマッチングによるテキストからのモーション生成

要点

関連記事

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

大手テック企業がAI投資と統合を加速、規制当局と企業は安全性と責任ある導入を重視

Claude Codeのフックで開発ワークフローを自動化する方法

同じエージェントでもリスクは別：Microsoft 365 Copilotのグラウンディングがセキュリティモデルをどう変えるか｜Rahsi Framework™

低コストAI推論のためのClaude Haiku活用：競馬予測システムから見えるパターン

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer