要旨: テキスト駆動のモーション編集と、骨格内の再ターゲティング(intra-structural retargeting)では、ソースとターゲットがトポロジーを共有する一方で、骨の長さが異なり得ます。これらは従来、互換性のない入力や表現を前提とした分断されたパイプラインによって処理されてきました。編集は専用の生成的スチアリングに依存し、再ターゲティングは幾何学的な事後処理に委ねられます。本研究では、両タスクを単一の生成フレームワークにおける条件付きトランスポート(conditional transport)の具体例として捉える統一的な視点を提示します。フローマッチング(flow matching)の最近の進展を活用することで、編集と再ターゲティングは、本質的には同一の生成タスクであり、推論時にどの条件信号(意味的あるいは構造的)を変調するかだけが異なる、ということを示します。我々はこのビジョンを、テキストプロンプトとターゲット骨格構造の両方により条件付けされた整流フロー(rectified-flow)モーションモデルとして実装します。提案アーキテクチャは、関節ごとのトークン化と、運動学的依存関係を厳密に強制するための明示的な関節自己注意を備えたDiTスタイルのトランスフォーマを拡張します。また、マルチ条件の分類器フリー・ガイダンス手法により、テキストへの一致と骨格への適合のバランスを取ります。SnapMoGenおよび、複数キャラクタを含むMixamoのサブセットでの実験により、単一で学習したモデルが、テキストからのモーション生成、ゼロショット編集、ゼロショットの骨格内再ターゲティングをサポートすることを示します。この統一的アプローチは、タスク固有のベースラインと比べてデプロイを簡素化し、構造的一貫性を向上させます。
モーション生成、編集、ならびに骨格内部のリターゲティングのための統一的条件付きフロー
arXiv cs.AI / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、テキスト駆動のモーション編集と骨格内部のリターゲティングを、フローマッチングによる条件付きトランスポートとして同一の問題とみなす統一的な生成フレームワークを提案する。
- 編集とリターゲティングの違いは主に、推論時にどの条件付け信号を変調するか(テキストからのセマンティクスか、ターゲット骨格からの構造か)であり、単一モデルで両タスクを扱えることを主張する。
- 著者らは、テキストプロンプトとターゲット骨格構造の両方により同時に条件付けされる整流フロー(rectified-flow)モーションモデルを実装し、DiTスタイルのトランスフォーマーを関節ごとのトークン化と関節自己注意によって拡張して、運動学的な依存関係を強制する。
- マルチ条件の分類器なしガイダンス戦略を用いて、テキストへの忠実さと骨格への適合のバランスを取り、タスク専用の個別パイプラインでは分断されがちな点を改善する。
- SnapMoGen と、多キャラクタの Mixamo サブセットに対する実験により、1つの学習済みモデルが、テキストからモーション生成だけでなく、ゼロショットの編集およびゼロショットの骨格内部リターゲティングも実行できることが報告される。

