MotionGrounder：拡散トランスフォーマーによる地に足のついたマルチオブジェクト運動転移

arXiv cs.CV / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

MotionGrounder は、単一オブジェクト設定に限らずマルチオブジェクト動画を扱える制御可能な運動転移のための、新しい DiT ベースのフレームワークです。
生成対象動画をキャプションに条件付けて作る際の安定した事前知識として、Flow ベースのモーションシグナル（FMS）を導入します。
Object-Caption Alignment Loss（OCAL）により、オブジェクトのキャプションを特定の空間領域へと対応付け、オブジェクトごとのグラウンディングを改善します。
新しい Object Grounding Score（OGS）は、ソースから生成された動画におけるオブジェクトの空間的な対応関係と、ターゲットキャプションとの意味的な整合性の両方を評価します。
実験（定量・定性・人手評価）により、MotionGrounder がマルチオブジェクト運動転移およびきめ細かな制御において、先行手法のベースラインよりも優れていることが示されています。

概要: 動きの転送は、参照動画から時間的ダイナミクスを転送して、新しい動画をターゲットのキャプションに条件付けして合成することで、制御可能な動画生成を可能にします。しかし、既存のDiffusion Transformer（DiT）ベース手法は単一オブジェクトの動画に限られており、複数のオブジェクトが存在する現実のシーンにおいて微細な制御を行うことが難しくなっています。本研究では、まず複数オブジェクトの制御可能性を備えた動きの転送を扱うDiTベースの枠組み「MotionGrounder」を提案します。MotionGrounderにおけるFlowベースのモーション・シグナル（FMS）は、ターゲット動画生成のための安定したモーション先行情報を提供します。また、Object-Caption Alignment Loss（OCAL）により、オブジェクトのキャプションをそれに対応する空間領域へと根付けます。さらに、ソース動画のオブジェクトと生成された対応物の（i）空間的整合と、各生成オブジェクトとそのターゲットキャプション間の（ii）意味的一貫性の両方を同時に評価する新しいObject Grounding Score（OGS）を提案します。実験の結果、MotionGrounderは定量評価、定性評価、そして人手評価のいずれにおいても、最近のベースラインを一貫して上回ることが示されました。