要旨: モーション制御動画の生成――ユーザーが指定した行動によって、任意に選べる視点のもとで物理的に妥当なシーンのダイナミクスを駆動する――には2つの能力が必要です: (1) 解きほぐされたモーション制御。ユーザーが対象物の動きを別々に制御し、カメラの視点を調整できるようにすること; そして (2) モーションの因果性。ユーザー主導の行動が、単にピクセルを置き換えるだけではなく、他の物体から首尾一貫した反応を引き起こすことを保証することです。既存の手法はいずれも十分ではありません。カメラと物体の動きを1つの追跡信号に絡め、物体運動を因果関係をモデル化することなく運動学的な変位として扱うためです。我々は、両方の限界に対処する統一的枠組みである MoRight を提案します。解きほぐされたモーションモデリングにより、これら2つの制約を同時に解決します。対象物のモーションは、正準的な静止視点で指定され、時間的なクロスビュー注意(temporal cross-view attention)によって任意の目標カメラ視点へと転送されます。これにより、カメラと物体の制御を解きほぐします。さらにモーションを、能動(ユーザーが駆動する)成分と受動(結果)成分に分解し、データからモーションの因果性を学習するようにモデルを訓練します。推論時には、ユーザーが能動モーションを与えることもでき、その場合 MoRight が結果を予測します(順方向推論)。また、望ましい受動的な結果を指定することで、その場合 MoRight がもっともらしい駆動アクションを復元します(逆方向推論)。いずれの場合も、カメラ視点を自由に調整できます。3つのベンチマークに対する実験により、生成品質、モーション制御性、相互作用の認識において最先端の性能が示されました。
MoRight:モーション制御を正しく行う
arXiv cs.CV / 2026/4/9
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- MoRightは、ユーザーの操作によって物理的にもっともらしいシーンドデ後のダイナミクスを、自由に選べる視点から生成するための新しい統一的なフレームワークとして提示される。
- この手法は、正準視点でのモーション仕様(canonical-view motion specification)と、時間方向のクロスビュー注意(temporal cross-view attention)を用いることで、物体の動きとカメラの動きを切り離し、目標視点への転送を可能にする点で、従来研究よりも改善されている。
- MoRightは、モーションの因果関係を明示的にモデル化し、動きをアクティブ(ユーザー主導)とパッシブ(結果として生じる)という構成要素に分解することで、非駆動の対象が単にピクセルを平行移動するのではなく、整合的に反応する方法を学習する。
- ユーザーが与えたアクティブな動きから結果(パッシブ)を予測する順方向推論と、望ましいパッシブな結果からもっともらしい駆動アクションを復元する逆方向推論の両方をサポートしつつ、視点の自由度は維持する。
- 3つのベンチマークにおける実験で、生成品質、モーション制御性、相互作用の認識性の各指標において先端(state-of-the-art)の結果が報告されている。



