Diffusion Path Alignment for Long-Range Motion Generation and Domain Transitions

arXiv cs.CV / 4/7/2026

📰 NewsIdeas & Deep AnalysisModels & Research

Key Points

  • 本論文は、意味的に異なる“モーション領域”間を長距離で自然に接続する移行(transition)を明示的に扱う長期人間動作生成の課題に取り組んでいる。
  • 事前学習済みの拡散モデルに対し、推論時(inference-time)の最適化として「遷移軌道の制御エネルギー目的」を導入し、遷移の軌道を正則化する枠組みを提案する。
  • 推論時最適化により、遷移の忠実度(fidelity)と時間的な一貫性(temporal coherence)が向上することを示している。
  • ダンスのようにスタイルや意味の異なるモチーフをまたいで滑らかに繋ぐ用途を想定しており、制御付きの長距離モーション生成に対する汎用的フレームワークを初めて与えると主張している。

Abstract

Long-range human movement generation remains a central challenge in computer vision and graphics. Generating coherent transitions across semantically distinct motion domains remains largely unexplored. This capability is particularly important for applications such as dance choreography, where movements must fluidly transition across diverse stylistic and semantic motifs. We propose a simple and effective inference-time optimization framework inspired by diffusion-based stochastic optimal control. Specifically, a control-energy objective that explicitly regularizes the transition trajectories of a pretrained diffusion model. We show that optimizing this objective at inference time yields transitions with fidelity and temporal coherence. This is the first work to provide a general framework for controlled long-range human motion generation with explicit transition modeling.