マルチステージ強化学習によるヒューマノイドの全身バドミントン

arXiv cs.RO / 2026/4/28

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ヒューマノイドロボットがバドミントンを行うための、全身協調型の強化学習トレーニング・パイプラインを提案し、動作の事前知識や専門家デモなしでフットワークと打撃を統合的に扱うとしている。
学習は3段階のカリキュラム（フットワーク獲得、精密ガイド付きスイング生成、課題に基づく微調整）で進め、脚と腕が共同で「打つ」という目的を最適化する。
デプロイではシャトルの軌道をEKF（拡張カルマンフィルタ）で推定・予測する方式を用い、さらにEKFと明示的な予測を取り除いた予測フリー版も開発している。
シミュレーションと実機で検証した結果、シミュレーションでは21回連続のラリーを維持し、実環境ではアウトゴーイングのシャトル速度が最大19.1 m/s、平均のリターン着地距離が約4 mとなった。
予測フリー版は、EKFベースの「目標既知」ポリシーと同等に近い性能を示し、軌道予測への依存を減らしつつ有効である可能性を示している。

要旨: ヒト型ロボットは、移動と操作の両面において、静的なシーンとの相互作用に関して強力な能力を示してきました。しかし、現実世界での動的な相互作用は依然として困難です。速く動く物体との相互作用に向けた一歩として、本稿では強化学習による学習パイプラインを提示します。このパイプラインは、運動の事前知識（モーション・プライア）や専門家によるデモンストレーションなしで、足さばきと打撃を協調させることで、ヒト型バドミントンのための統一的な全身制御器（whole-body controller）を生み出します。学習は3段階のカリキュラム（足さばきの獲得、精度誘導付きのスイング生成、課題に特化した洗練）に従い、脚と腕が共同して打撃という目的に寄与します。実運用に際しては、拡張カルマンフィルタ（EKF）を用いて、狙った打撃のためのシャトルの軌道を推定し、予測します。同時に、EKFと明示的な予測を取り除く、予測なしのバリアントも開発します。シミュレーションおよびハードウェアにおいて、5組の実験でこの枠組みを検証します。シミュレーションでは、2体のロボットが21回連続のヒットによるラリーを維持します。機械が投入するシャトルおよび人とロボットのラリーの両方を用いた実世界テストでは、ロボットは最大19.1~m/sのアウトゴーイング・シャトル速度を達成し、平均のリターン着地点距離は4~mでした。さらに、予測なしのバリアントは、EKFベースのターゲット既知ポリシーと同等の性能を示します。総じて、本手法は、ヒト型バドミントンにおける動的かつ精密な目標打撃を可能にし、よりダイナミクスを重視する全身相互作用課題へ向けた道筋を示唆します。