学習にチューニングする:コントローラ利得がロボットのポリシー学習に与える影響
arXiv cs.RO / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、状態に条件付けされたロボットポリシーを位置制御器と組み合わせて用いる場合、コントローラ利得は目標追従性や剛性だけで選ぶのではなく、得られる閉ループ系がどれだけ学習可能(learnable)かに基づいて選ぶべきだと主張している。
- 位置制御器の利得が、模倣学習(behavior cloning)、スクラッチからの強化学習(reinforcement learning from scratch)、および複数のタスクとロボットの実装(embodiment)にわたるシミュレーションから実機への移行(sim-to-real transfer)にどのように影響するかを体系的に調べている。
- 結果として、模倣学習はコンプライアント(柔らかめ)で過減衰(overdamped)の利得領域で最も良好に機能し、一方で強化学習はハイパーパラメータを適切に調整すれば利得領域をまたいで動作し得ることが示されている。
- シミュレーションから実機への移行では、硬め(stiff)で過減衰の両方の利得領域が移行性能を低下させ得ることから、「学習可能性」と「実世界での頑健性」の間にトレードオフがあることが示唆される。
- 全体として、最適な利得設定戦略は、望まれる低レベル制御特性だけではなく、用いる学習パラダイムに依存する。




