制御リャプノフ関数ガイド付き強化学習における制御安定性

arXiv cs.RO / 2026/5/5

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ヒューマノイドの歩行に用いられる強化学習（RL）で生じる主要な課題として、CLF-RLに基づく制御ポリシーの安定性分析を提示します。
RL問題を最適制御問題として捉え、連続時間・離散時間の両方で指数安定性を証明します。
安定性の理論は、制御リャプノフ関数（CLF）の基本的な報酬項だけでなく、実務で追加されがちな補助的な報酬項にも適用されます。
数値実験により、理論的な境界（バウンド）をダブルインテグレータやカートポールといったベンチマーク系で検証します。
さらに歩行ヒューマノイドロボットでCLF誘導の報酬を実装し、安定した周期軌道（安定周期運動）を生成できることを示します。

Abstract

強化学習（RL）は実務において、ヒト型ロボットの歩行を達成するための事実上の手法となっている一方で、対応する制御方策の安定性解析は不足している。近年の研究では、制御理論の考え方と強化学習を、制御に導かれる学習（control guided learning）によって融合しようとする試みがなされている。代表的な例として、制御リャプノフ関数（CLF）を用いて強化学習の報酬を合成する手法、すなわちCLF-RLが挙げられ、実用上の成功が示されている。本論文では、実験で観測された安定性と理論的な保証を結びつけることを目的として、CLF-RLに基づく最適制御器の安定性特性を調べる。RL問題を最適制御問題として捉え、連続時間および離散時間の両方において、主要なCLF報酬項と、実際に用いられる追加項の両方を用いて指数安定性を証明する。さらに、理論的な境界は、二重積分器やカート・ポールといったシステムに対して数値的に検証される。最後に、CLFに導かれた報酬を歩行するヒト型ロボットに実装し、安定な周期軌道を生成する。