CLAW:合成可能な言語アノテーション付き全身動作生成

arXiv cs.RO / 2026/4/14

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • CLAWは、Unitree G1ヒューマノイドロボット向けの大規模な、言語アノテーション付き全身動作データを生成するための、新しいインタラクティブなWebベースのパイプラインとして導入される。

Abstract

ヒューマノイドロボットのために、言語条件付きの全身コントローラを学習するには、運動軌跡と自然言語による記述を対応づけた大規模データセットが必要です。モーションキャプチャに基づく既存手法はコストが高く、多様性にも限界があります。一方で、テキストからモーションを生成するモデルは、純粋に運動学的な出力を生成するだけであり、物理的に実現可能であることは保証されません。そこで本研究では、Unitree G1 ヒューマノイドロボット向けに、言語注釈付きの全身モーションデータを大規模に生成するための、インタラクティブなWebベースのパイプライン CLAW を提示します。CLAW は、運動学的プランナのモードを、構成可能なビルディングブロックとして扱います。各ビルディングブロックは、移動、向き、速度、骨盤の高さ、期間によってパラメータ化されており、ブラウザ上で利用できる2つのインタフェース――リアルタイムのキーボードモードと、タイムラインベースのシーケンスエディタ――を提供することで、探索的なデータ収集とバッチ処理でのデータ収集の両方を可能にします。低レベルの全身コントローラは MuJoCo シミュレーションにおいてプランナの運動学的参照を追従し、50Hz で記録された、物理的に裏付けられた軌跡を生成します。同時に、決定論的なテンプレートベースの注釈エンジンが、各セグメントおよび全軌跡に対して、複数のスタイルのレジスタで多様な自然言語記述を生成します。本システムはオープンソースとして公開し、ヒューマノイドロボットの学習のための、言語-モーション対データを大規模に生成することを支援します。