AI Navigate

UMO: 統一的インコンテキスト学習がモーション基盤モデルの事前知識を解放する

arXiv cs.CV / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • UMO は、事前訓練済みのモーション基盤モデルを活用するために、多様な下流のモーション生成タスクをフレームごとの操作の組み合わせとして扱う統一的な枠組みを提供します。
  • 3つの学習可能なフレームレベルのメタ操作埋め込みと、実行時オーバーヘッドをほとんど増やさない軽量な時系列融合手法を導入し、インコンテキストの手掛かりを注入します。
  • 事前学習済みの DiT ベースのモーション LFM をファインチューニングすることにより、UMO は、時系列インペインティング、テキスト指示によるモーション編集、テキストで表現された幾何的制約、そして複数アイデンティティの反応生成など、以前はサポートされていなかったタスクをサポートします。
  • 実験結果は、UMO がベンチマーク全体で、タスク固有のベースラインやトレーニング不要のベースラインを一貫して上回ることを示しています。
  • 著者らは、追随的な利用と評価のために、コードとモデルを公開し、プロジェクトページを開設する予定です。

要約: 大規模な基盤モデル(LFMs)は、巨大な3D人間モーションデータセットと対になるテキスト記述から強力な生成事前知識を学習することにより、テキストからモーションへの生成で最近顕著な進歩を遂げている。しかし、単一目的のモーションLFMs、すなわちテキストからモーションへの合成を、より多様なクロスモーダルおよび文脈内モーション生成の下流タスクで、効果的かつ効率的に活用する方法は、依然としてほとんど不明である。従来の研究は通常、事前学習済みの生成事前知識を個々の下流タスクに対してタスク固有の方法で適応させる。対照的に、私たちの目標は、単一の統一フレームワーク内で下流のモーション生成タスクの幅広いスペクトルをサポートするために、こうした事前知識を解放することである。ギャップを埋めるために、UMO を提案する。これは多様な下流タスクを原子レベルの各フレームの操作の組み合わせに変換する、シンプルでありながら一般的な統一的定式化で、事前学習済みの DiT ベースのモーションLFMs の生成事前知識を文脈内適応によって解放する。具体的には、UMO は3つの学習可能なフレームレベルのメタ操作埋め込みを導入して各フレームの意図を指定し、軽量な時間的フュージョンを用いて文脈内の手掛かりを事前学習済みのバックボーンに注入し、ベースモデルと比較して実行時オーバーヘッドをほとんど増やさない。この設計により、UMO は元々テキストからモーション生成に限定されていた事前学習済みモデルを微調整し、時間的インペインティング、テキスト誘導モーション編集、テキスト列挙幾何制約、およびマルチアイデンティティ反応生成など、以前はサポートされていなかった多様なタスクを支援できるようにする。実験は、単一の統一モデルを使用するにも関わらず、幅広いベンチマークにおいてタスク特化型およびトレーニング不要なベースラインを一貫して上回ることを示している。コードとモデルは公開される予定です。プロジェクトページ: https://oliver-cong02.github.io/UMO.github.io/