QuadFM:生成と制御のための基盤となるテキスト駆動四足歩行モーション・データセット

arXiv cs.RO / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、自然言語コマンドに基づく四足歩行モーション・データセット「QuadFM」を紹介する。QuadFMは大規模かつ超高精細で、歩行(移動)、インタラクティブな振る舞い、感情表現を伴うアクションを含む計11,784本のモーションクリップで構成される。

要旨: 四足歩行ロボティクスにおける大きな進歩にもかかわらず、多様な移動(ロコモーション)、感情表現に富んだ振る舞い、そして機敏で直感的な人とロボットの相互作用に不可欠な豊かな言語セマンティクスを、包括的に統合する基盤となる運動リソースについての重要なギャップが依然として残っています。現在の四足歩行の運動データセットは、いくつかの mocap プリミティブ(例: 歩行、速歩、座位)に限られており、豊かな言語による基底付けを伴う多様な振る舞いが欠けています。このギャップを埋めるために、私たちは Quadruped Foundational Motion(QuadFM)を提案します。これは、テキストから運動を生成すること、ならびに一般的な運動制御を目的に設計された、初の大規模かつ超高精細なデータセットです。QuadFM には、移動、インタラクティブ、感情を表現する振る舞い(例: ダンス、ストレッチ、排尿)にまたがる 11,784 本の厳選されたモーション・クリップが含まれており、各クリップには 3 層の注釈(きめ細かなアクションラベル、インタラクションの状況、自然言語コマンド)が付与されています。これにより、言語条件付きの理解とコマンド実行を支える合計 35,352 件の記述が提供されます。
さらに、一般的な運動コントローラとテキストから運動を生成するジェネレータを共同で学習する統一的な枠組み Gen2Control RL を提案します。これにより、エッジ・ハードウェア上で効率的なエンドツーエンド推論を可能にします。NVIDIA Orin を搭載した実機の四足ロボット上で、私たちのシステムはリアルタイムな運動合成(<500 ms のレイテンシ)を達成します。シミュレーションおよび実世界の結果は、頑健な物理的相互作用を維持しつつ、現実的で多様な運動が得られることを示しています。データセットは https://github.com/GaoLii/QuadFM で公開予定です。