MotionBricks:モジュール式潜在生成モデルとスマート・プリミティブによるスケーラブルなリアルタイム動作生成

arXiv cs.LG / 2026/4/29

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • MotionBricksは、生成的モーション合成における2つの不足(リアルタイムでのスケーラビリティ=厳しい計算制約下でも品質と規模を維持すること、既存のテキスト/タグ主導モデルでは満たされにくいきめ細かなマルチモーダル制御の統合)に焦点を当てています。
  • 本システムは、350,000本超のモーションクリップを1つのモデルで表現できるように設計した、大規模なモジュール式潜在生成バックボーンを用いて、堅牢なリアルタイム生成を目指します。
  • 「スマート・プリミティブ」を追加し、ナビゲーションとオブジェクト相互作用を直感的かつ統一的に作成できるインターフェースを提供することで、熟練のアニメーション知識なしでもモーション挙動をブロックのように組み立てられる「プラグ&プレイ」を狙います。
  • 著者らは、オープンソースおよびプロプライエタリ双方のデータセットで最先端のモーション品質と、定量評価における15,000 FPS・2msレイテンシのリアルタイム性能を報告しています。
  • さらに、本フレームワークを制作レベルのアニメーションデモで検証し、Unitree G1のヒューマノイドロボットに展開してリアルタイム制御と汎化性を示しています。

要旨: 生成的モーション合成における変革的な進歩にもかかわらず、リアルタイムのインタラクティブなモーション制御は依然として従来の手法によって支配されています。本研究では、研究と実運用(プロダクション)の橋渡しにおける2つの重要な課題を特定します。1) リアルタイムの拡張性: 業界のアプリケーションでは、非常に多様なモーション技能の広大なレパートリーをリアルタイム生成することが求められます。一方で、生成的手法は、リアルタイム計算の制約の下で品質および拡張性が大きく劣化することが示されています。2) 統合: 業界のアプリケーションでは、速度コマンド、スタイル選択、正確なキーフレームを含む、きめ細かなマルチモーダル制御が求められますが、このニーズは主に既存のテキスト駆動またはタグ駆動モデルでは十分に満たされていません。これらの制約を克服するために、MotionBricks を提案します。これは大規模かつリアルタイムな生成フレームワークであり、二段階の解決策を備えています。まず、堅牢なリアルタイム・モーション生成に特化した大規模モジュール型の潜在生成バックボーンを提案し、単一のモデルで35万本超のモーションクリップからなるデータセットを効果的にモデル化します。次に、ナビゲーションとオブジェクト相互作用の両方を作成するための、統一的で堅牢かつ直感的なインターフェースを提供するスマートプリミティブを導入します。アプリケーションは、専門的なアニメーション知識がなくても、レンガを組み立てるようにプラグアンドプレイで設計できます。定量的に、MotionBricks は、さまざまな規模の公開ソースおよび専有(プロプライエタリ)データセット上で最先端のモーション品質を生み出すことを示し、さらに2msのレイテンシで15,000 FPSのリアルタイムスループットも達成しています。MotionBricks の柔軟性と堅牢性を、完全なプロダクションレベルのアニメーションデモで実証します。統一モデルにより、さまざまなスタイルにおけるナビゲーションおよびオブジェクトシーン相互作用をカバーします。アニメーション以外での本フレームワークの応用を示すために、Unitree G1 のヒューマノイドロボットに MotionBricks を展開し、リアルタイムのロボット制御における柔軟性と汎化性を実演します。