ブラックボックス・ハイブリッド動的システムに対する「厳しいアフィン制約」を確実に満たす制御ポリシーの学習

arXiv cs.RO / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、未知の非線形ダイナミクスに加えて、衝突やリセット写像による瞬間的な状態ジャンプを伴うブラックボックス・ハイブリッド動的システムにおける安全性の保証を扱っています。
提案は、強化学習（RL）で学習する制御ポリシーをアフィン形に制約し、制約境界付近でポリシーを「反発（repulsive）」させることで、閉ループでアフィン状態制約を逸脱しないことを理論的に保証する点にあります。
ハイブリッドな衝撃によってリセット後に安全性が崩れる問題に対し、リセット直前に追加の反発アフィン領域を導入して、リセット後の状態も制約内に保つようにします。
閉ループ安全性を保証する十分条件を導出し、報酬成形や学習型CBF（コントロール・バリア関数）などの先行手法と、拘束付き振り子やパドルジャグラーといったベンチマークで比較した結果、安全性を常に満たしつつより高品質なポリシーが得られることを示しています。

要旨: ブラックボックスのハイブリッド動的システムに対して安全性を確保することは、その瞬間的な状態ジャンプと、明示的な非線形ダイナミクスが不明であることにより、大きな課題を伴います。制御バリア関数（CBF）や到達可能性解析のような厳密な安全制約の充足に依拠する既存手法は、ダイナミクスの直接知識を前提としています。同様に、安全な強化学習（RL）のアプローチは、多くの場合、既知のシステムダイナミクスに依存するか、あるいは報酬設計（reward shaping）によって単に安全違反を思いとどまらせるだけです。本研究では、アフィンなリセット写像をもつブラックボックスのハイブリッド動的システムに対し、閉ループでアフィンな状態制約を（証明可能に）満たす強化学習方策を学習したいと考えます。主要な着想は、システムの未知の非線形ダイナミクスに対して、制約境界の近傍でRL方策をアフィンに強制し、さらにそり返す（反発的な）性質を与えることで、軌道が制約を破らないことを保証する点にあります。さらに、衝突やリセット写像によってハイブリッドシステムで生じる瞬間的な状態ジャンプに起因する制約違反を考慮するため、リセットの直前に第二の反発的なアフィン領域を導入し、リセット後の状態が制約を破らないようにします。これらの方策が閉ループで安全制約を満たすための十分条件を導出します。また、拘束付き振り子やパドル・ジャグラーの環境のようなハイブリッド動的システムにおいて、提案手法を最先端の報酬設計および学習型CBF手法と比較します。いずれのシナリオにおいても、本手法は安全制約を常に満たしつつ、より高品質な方策を学習できることを示します。