BAT: 長期ホライズンの全身ヒューマノイド制御に向けたオンライン・ポリシー切り替えによる機敏性と安定性の両立

arXiv cs.RO / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

論文は、全身（whole-body）の長期ホライズン制御において「機敏さ・精度・頑健性」を同時に満たす統一的枠組みが難しい点を問題設定している。
BATは、二つの補完的な全身RLコントローラを文脈に応じてオンラインで切り替えることで、機敏性と安定性のトレードオフを動的に調整する方針を取る。
切り替え方は、スライディングホライズンの事前評価によるエキスパート誘導を用いた階層型RLで学習し、さらにoption-awareなVQ-VAEで離散モーショントークン列からオプション嗜好を推定して汎化性を高める。
最終的な選択は両モジュールの「信頼度」に基づくconfidence-weighted fusionで決定し、Unitree G1でのシミュレーションと実機実験で従来手法より優れた長期ロコマニピュレーション等を示した。

概要: 制御、強化学習、模倣学習における近年の進歩にもかかわらず、特に長期ホライズン課題において、機敏で正確かつ頑健な全身挙動を実現できる統一的な枠組みを開発することは依然として困難です。既存のアプローチは通常、2つのパラダイムに従います。すなわち、全体的な協調のための結合型全身ポリシーと、モジュールとしての精密さのための分離型ポリシーです。しかし、両者を統合するための体系的な方法がない場合、この機敏さ、頑健性、精度の間のトレードオフは未解決のままです。本研究では、BAT（BAT: Online Policy-Switching framework）として、異なる運動コンテキストにまたがって機敏さと安定性のバランスを取るために、2つの補完的な全身RLコントローラの間を動的に切り替えるオンラインのポリシー切り替え枠組みを提案します。私たちの枠組みは2つの補完的モジュールから構成されます。1つ目は、スライディングホライズンのポリシー事前評価によるエキスパートガイダンスを伴う階層型強化学習によって学習されるスイッチングポリシーです。2つ目は、離散的な運動トークン列からオプション嗜好を予測して汎化性を向上させる、オプション認識型VQ-VAEです。最終的な判断は、2つのモジュールの信頼度に基づく統合（confidence-weighted fusion）によって得られます。大規模なシミュレーションと、Unitree G1のヒューマノイドロボットを用いた実環境実験の結果から、BATが多用途の長期ホライズンの歩行-操作（loco-manipulation）を可能にし、さまざまな課題において従来手法を上回ることが示されました。