RecoverFormer：ヒューマノイドロボットのための接触を考慮したエンドツーエンド回復

arXiv cs.RO / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

RECOVERFORMERは、予期しない擾乱からヒューマノイドロボットを回復させるためのエンドツーエンドの制御方策で、状況に応じて複数の回復行動（補償的なステップ、手と環境の接触、重心の再形成）を切り替えることを学習します。
50ステップの観測履歴に対する因果トランスフォーマに加え、回復モードを潜在的に表現して滑らかな戦略遷移を可能にするヘッドと、壁・手すり・机の縁など安定化に有効な接触面を予測する接触アフォーダンスヘッドを新規に導入しています。
Unitree G1をMuJoCo上で評価し、開放床でのみ学習した状態から、壁環境へゼロショットで移行でき、100〜300Nのプッシュと壁までの距離0.25〜1.4mの範囲で100%の回復成功を達成しています。
ダイナミクスの不一致や外乱（質量、遅延、摩擦、複合外乱）にも頑健で、例えば質量+25%では75.5%、30ms遅延では89%、低摩擦では91.5%、複合摩擦では99%と報告されています。
さらに、力の領域ごとに潜在モードが自動的に専門化し（モード単位の教師なし）、300エピソードのt-SNE分析でもその分化が検証されています。

要旨: 随所で構成が定まらない環境で動作するヒューマノイドロボットは、想定外の外乱から回復しなければなりませんが、その能力はエンドツーエンドの制御ポリシーにおいて依然として困難です。本論文では、RECOVERFORMER を提案します。これは、モデルの不一致（モデルミスマッチ）があっても堅牢な性能を維持しながら、補償的なステッピング、手部の環境接触、重心の再形状化（center-of-mass reshaping）といった回復行動間で「いつ・どのように切り替えるか」を学習する、完全にエンドツーエンドのヒューマノイド回復ポリシーです。提案アーキテクチャは、50ステップの観測履歴に対する因果トランスフォーマーと、2つの新規ヘッドを組み合わせています。1つは、異なる回復戦略間で滑らかな遷移を可能にする潜在回復モード、もう1つは、どの環境表面（壁、手すり、テーブル端）が安定化に有益かを予測する接触アフォーダンスヘッドです。Unitree G1 のヒューマノイドを MuJoCo 上で RECOVERFORMER により評価します。開放床のみで訓練したにもかかわらず、RECOVERFORMER は壁あり環境へゼロショット転移し、100〜300 N のプッシュおよび壁までの距離 0.25〜1.4 m の範囲で 100% の回復成功を達成します。ゼロショットのダイナミクス不一致下では、質量 +25% で 75.5%、30 ms の遅延で 89%、低摩擦で 91.5%、複合的な摩擦・遅延・質量の摂動下で 99% に到達します。学習された潜在モードは、モードレベルの教師なしで力のレジームに応じて特化し、その妥当性は 300 エピソードに対する t-SNE 分析によって検証されています。以上をまとめると、1つのエンドツーエンドポリシーが、外乱の大きさ、接触ジオメトリ、ダイナミクスの変化にわたって一般化しつつ、複数モードで接触を意識したヒューマノイド回復を実現できることを示しています。