HEX: 身体同調型エキスパートによる身体形態をまたぐ全身操作のための手法

arXiv cs.RO / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • HEXは、VLAモデルが身体の各部位を独立に扱うことから生じる不安定性に対処し、フルサイズの二足歩行ヒューマノイドロボットにおける安定した全身操作のための状態中心の枠組みを導入する。
  • 本手法は、異種のロボット実装にまたがるスケーラブルな学習を可能にするヒューマノイドに整合した普遍的な状態表現を用い、協調的な運動モデリングのためのMixture-of-Experts(混合専門家)型の自己受容(プロプリオセプション)予測器を組み込む。
  • HEXは、軽量な履歴トークンを活用して時間的な視覚文脈を効率よく保持し、推論時に過去画像を繰り返し符号化する必要を削減する。
  • 残差ゲーティングによる融合メカニズムと、フローマッチング型のアクションヘッドを組み合わせ、視覚・言語の手がかりと自己受容のダイナミクスを統合して行動を生成する。
  • 実世界のヒューマノイド操作実験では、タスク成功率において最先端の性能が報告され、特に素早い反応が必要なタスクや長いホライズンのタスクにおいて汎化性能が向上した。

Abstract

人間は、全身の協調的な制御によって複雑な操作を達成します。一方で、ほとんどの視覚言語行動(VLA)モデルはロボットの身体部位を概ね独立に扱うため、高自由度(DoF)のヒューマノイド制御が難しく、しばしば不安定になります。我々は、フルサイズの二足歩行ヒューマノイドロボット上での協調操作のための状態中心型フレームワークHEXを提案します。HEXは、異なる実装形態にまたがってスケーラブルに学習するための、ヒューマノイドに整合した普遍的な状態表現を導入し、大規模な複数実装形態の軌跡データから、全身の協調と時間的な運動ダイナミクスをモデル化するために、Mixture-of-Experts(Mixture-of-Experts)統一固有受容予測器を組み込みます。時間的な視覚文脈を効率よく捉えるために、HEXは軽量な履歴トークンを用いて過去の観測を要約し、推論時に歴史的画像を繰り返し符号化することを回避します。さらに、残差ゲート付き融合機構と、フローマッチングのアクションヘッドを採用することで、視覚言語の手がかりを固有受容ダイナミクスと適応的に統合し、行動生成を行えるようにします。実世界のヒューマノイド操作タスクでの実験により、HEXはタスク成功率と汎化性能において最先端の性能を達成することが示されました。特に、素早い反応が求められる状況や長いホライズンのシナリオにおいて顕著です。