UMO: 統一的インコンテキスト学習がモーション基盤モデルの事前知識を解放する

arXiv cs.CV / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

UMO は、事前訓練済みのモーション基盤モデルを活用するために、多様な下流のモーション生成タスクをフレームごとの操作の組み合わせとして扱う統一的な枠組みを提供します。
3つの学習可能なフレームレベルのメタ操作埋め込みと、実行時オーバーヘッドをほとんど増やさない軽量な時系列融合手法を導入し、インコンテキストの手掛かりを注入します。
事前学習済みの DiT ベースのモーション LFM をファインチューニングすることにより、UMO は、時系列インペインティング、テキスト指示によるモーション編集、テキストで表現された幾何的制約、そして複数アイデンティティの反応生成など、以前はサポートされていなかったタスクをサポートします。
実験結果は、UMO がベンチマーク全体で、タスク固有のベースラインやトレーニング不要のベースラインを一貫して上回ることを示しています。
著者らは、追随的な利用と評価のために、コードとモデルを公開し、プロジェクトページを開設する予定です。

要約: 大規模な基盤モデル（LFMs）は、巨大な3D人間モーションデータセットと対になるテキスト記述から強力な生成事前知識を学習することにより、テキストからモーションへの生成で最近顕著な進歩を遂げている。しかし、単一目的のモーションLFMs、すなわちテキストからモーションへの合成を、より多様なクロスモーダルおよび文脈内モーション生成の下流タスクで、効果的かつ効率的に活用する方法は、依然としてほとんど不明である。従来の研究は通常、事前学習済みの生成事前知識を個々の下流タスクに対してタスク固有の方法で適応させる。対照的に、私たちの目標は、単一の統一フレームワーク内で下流のモーション生成タスクの幅広いスペクトルをサポートするために、こうした事前知識を解放することである。ギャップを埋めるために、UMO を提案する。これは多様な下流タスクを原子レベルの各フレームの操作の組み合わせに変換する、シンプルでありながら一般的な統一的定式化で、事前学習済みの DiT ベースのモーションLFMs の生成事前知識を文脈内適応によって解放する。具体的には、UMO は3つの学習可能なフレームレベルのメタ操作埋め込みを導入して各フレームの意図を指定し、軽量な時間的フュージョンを用いて文脈内の手掛かりを事前学習済みのバックボーンに注入し、ベースモデルと比較して実行時オーバーヘッドをほとんど増やさない。この設計により、UMO は元々テキストからモーション生成に限定されていた事前学習済みモデルを微調整し、時間的インペインティング、テキスト誘導モーション編集、テキスト列挙幾何制約、およびマルチアイデンティティ反応生成など、以前はサポートされていなかった多様なタスクを支援できるようにする。実験は、単一の統一モデルを使用するにも関わらず、幅広いベンチマークにおいてタスク特化型およびトレーニング不要なベースラインを一貫して上回ることを示している。コードとモデルは公開される予定です。プロジェクトページ: https://oliver-cong02.github.io/UMO.github.io/

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

note

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

日経XTECH

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

「支払われなければ通報せよ」改正建設業法／日系車部品の失注相次ぐ「bZショック」など、注目記事を音声化しました

日経XTECH

State of MCP Security 2026: We Scanned 15,923 AI Tools. Here's What We Found.

Dev.to

UMO: 統一的インコンテキスト学習がモーション基盤モデルの事前知識を解放する

要点

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

「支払われなければ通報せよ」改正建設業法／日系車部品の失注相次ぐ「bZショック」など、注目記事を音声化しました

State of MCP Security 2026: We Scanned 15,923 AI Tools. Here's What We Found.

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

日産、E2Eロボタクシーで「水平分業」 ウーバー・NVIDIAと対テスラ

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

「支払われなければ通報せよ」改正建設業法／日系車部品の失注相次ぐ「bZショック」など、注目記事を音声化しました

State of MCP Security 2026: We Scanned 15,923 AI Tools. Here's What We Found.

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ