AI Navigate

ECHO: 言語から動作への制御を実現するエッジ-クラウド型ヒューマノイド・オーケストレーション

arXiv cs.CV / 2026/3/18

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 言語駆動の全身制御を行うエッジ-クラウド型フレームワークである ECHO を紹介し、クラウド拡散モデルベースのテキストからモーションへの生成器と、エッジ RL トラッカーを閉ループで結びつける。
  • 動作は、38次元のコンパクト表現にエンコードされ、CLIP特徴に対するクロスアテンションを備えた1D UNetによって生成され、推論を迅速化する(クラウドGPUで10ステップのデノイズで約1秒程度)。
  • トラッカーは、教師-生徒パラダイムを用い、証拠に基づく適応モジュールを介したシムツーリアル転送、ドメインランダム化、対称性制約を組み込み、さらにはオンボードIMUとライブラリ軌道を用いた自動転倒復旧機構を備える。
  • HumanML3D での評価は高い生成品質を示し(FID 0.029、R-Precision Top-1 0.686)、一方 Unitree G1 での実機テストはハードウェアの微調整なしで安定した指令実行を示した。

要旨:
我々は、言語駆動の全身制御を実現するヒューマノイドロボット向けのエッジ-クラウドフレームワーク ECHO を提案します。クラウド上でホストされる拡散ベースのテキストからモーションへの生成器が自然言語指示からモーション参照を合成し、一方でエッジ展開の強化学習トラッカーがそれらをロボット上で閉ループで実行します。二つのモジュールは、関節角、ルート平面速度、ルート高さ、各フレームの連続的な6Dルート姿勢をエンコードする、コンパクトでロボット固有の38次元モーション表現によって橋渡しされ、推論時の人間のボディモデルからのリターゲットを排除し、低レベルのPD制御と直接互換性を保ちます。生成器は、CLIPエンコード済みのテキスト特徴に条件付けられたクロスアテンションを備えた1D畳み込みの UNet を採用します。推論時には、10回のデノイズステップを用いた DDIM サンプリングと分類器なしガイダンスにより、クラウドGPU上で約1秒程度でモーション列を生成します。トラッカーは教師-学生パラダイムに従います。特権的な教師ポリシーは、実機への転送を可能にするエビデンシャル適応モジュールを備えた軽量な学生モデルへ蒸留され、形態対称性の制約とドメインランダム化によってさらに強化されます。自律的な転倒回復機構は、搭載IMUからの読取と転倒検知を行い、あらかじめ構築されたモーションライブラリから回復軌道を取得します。ECHO をリターゲット済みの HumanML3D ベンチマークで評価したところ、統一されたロボットドメイン評価指標の下で高い生成品質を達成します(FID 0.029、R-Precision Top-1 0.686)。同時に、高いモーション安全性と軌道の一貫性を維持します。Unitree G1 ヒューマノイドを用いた現実世界の実験では、ハードウェアの微調整を一切行うことなく、さまざまなテキスト指示の安定した実行を示しました。