BAT: Balancing Agility and Stability via Online Policy Switching for Long-Horizon Whole-Body Humanoid Control
arXiv cs.RO / 4/2/2026
📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 論文は、全身(whole-body)の長期ホライズン制御において「機敏さ・精度・頑健性」を同時に満たす統一的枠組みが難しい点を問題設定している。
- BATは、二つの補完的な全身RLコントローラを文脈に応じてオンラインで切り替えることで、機敏性と安定性のトレードオフを動的に調整する方針を取る。
- 切り替え方は、スライディングホライズンの事前評価によるエキスパート誘導を用いた階層型RLで学習し、さらにoption-awareなVQ-VAEで離散モーショントークン列からオプション嗜好を推定して汎化性を高める。
- 最終的な選択は両モジュールの「信頼度」に基づくconfidence-weighted fusionで決定し、Unitree G1でのシミュレーションと実機実験で従来手法より優れた長期ロコマニピュレーション等を示した。
Related Articles

Black Hat Asia
AI Business

Unitree's IPO
ChinaTalk

Did you know your GIGABYTE laptop has a built-in AI coding assistant? Meet GiMATE Coder 🤖
Dev.to

Benchmarking Batch Deep Reinforcement Learning Algorithms
Dev.to
A bug in Bun may have been the root cause of the Claude Code source code leak.
Reddit r/LocalLLaMA