モーション生成、編集、ならびに骨格内部のリターゲティングのための統一的条件付きフロー

arXiv cs.AI / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、テキスト駆動のモーション編集と骨格内部のリターゲティングを、フローマッチングによる条件付きトランスポートとして同一の問題とみなす統一的な生成フレームワークを提案する。
編集とリターゲティングの違いは主に、推論時にどの条件付け信号を変調するか（テキストからのセマンティクスか、ターゲット骨格からの構造か）であり、単一モデルで両タスクを扱えることを主張する。
著者らは、テキストプロンプトとターゲット骨格構造の両方により同時に条件付けされる整流フロー（rectified-flow）モーションモデルを実装し、DiTスタイルのトランスフォーマーを関節ごとのトークン化と関節自己注意によって拡張して、運動学的な依存関係を強制する。
マルチ条件の分類器なしガイダンス戦略を用いて、テキストへの忠実さと骨格への適合のバランスを取り、タスク専用の個別パイプラインでは分断されがちな点を改善する。
SnapMoGen と、多キャラクタの Mixamo サブセットに対する実験により、1つの学習済みモデルが、テキストからモーション生成だけでなく、ゼロショットの編集およびゼロショットの骨格内部リターゲティングも実行できることが報告される。

要旨: テキスト駆動のモーション編集と、骨格内の再ターゲティング（intra-structural retargeting）では、ソースとターゲットがトポロジーを共有する一方で、骨の長さが異なり得ます。これらは従来、互換性のない入力や表現を前提とした分断されたパイプラインによって処理されてきました。編集は専用の生成的スチアリングに依存し、再ターゲティングは幾何学的な事後処理に委ねられます。本研究では、両タスクを単一の生成フレームワークにおける条件付きトランスポート（conditional transport）の具体例として捉える統一的な視点を提示します。フローマッチング（flow matching）の最近の進展を活用することで、編集と再ターゲティングは、本質的には同一の生成タスクであり、推論時にどの条件信号（意味的あるいは構造的）を変調するかだけが異なる、ということを示します。我々はこのビジョンを、テキストプロンプトとターゲット骨格構造の両方により条件付けされた整流フロー（rectified-flow）モーションモデルとして実装します。提案アーキテクチャは、関節ごとのトークン化と、運動学的依存関係を厳密に強制するための明示的な関節自己注意を備えたDiTスタイルのトランスフォーマを拡張します。また、マルチ条件の分類器フリー・ガイダンス手法により、テキストへの一致と骨格への適合のバランスを取ります。SnapMoGenおよび、複数キャラクタを含むMixamoのサブセットでの実験により、単一で学習したモデルが、テキストからのモーション生成、ゼロショット編集、ゼロショットの骨格内再ターゲティングをサポートすることを示します。この統一的アプローチは、タスク固有のベースラインと比べてデプロイを簡素化し、構造的一貫性を向上させます。

Black Hat Asia

AI Business

Claude Opus 4.7の紹介

Anthropic News

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

日経XTECH

ルネサス、初の双方向GaNスイッチ AIデータセンターや太陽光発電狙う

日経XTECH

米国の小売業者へのAIトラフィックは第1四半期に393%増、しかも売上の押し上げにもつながっている

TechCrunch

モーション生成、編集、ならびに骨格内部のリターゲティングのための統一的条件付きフロー

要点

関連記事

Black Hat Asia

Claude Opus 4.7の紹介

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

ルネサス、初の双方向GaNスイッチ AIデータセンターや太陽光発電狙う

米国の小売業者へのAIトラフィックは第1四半期に393%増、しかも売上の押し上げにもつながっている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer