キャスケード動力学システムにおけるゼロショット強化学習の安全性保証
arXiv cs.AI / 2026/4/14
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、内側の状態が外側の状態に影響を与える一方で逆はないキャスケード動力学システムに対して、ゼロショットの安全性保証を得る方法を研究する。
- 安全性を、全時刻にわたって高確率の「安全集合(safe set)」の範囲内に留まることとして定義し、内側状態の動力学を無視した縮約次数モデル上で安全なRLポリシーを訓練し、その影響を行動を通じてモデル化することを提案する。
- 完全なシステムへの展開では、RLポリシーを低レベルの制御器と組み合わせて、RLが提供する参照(reference)を追従させることで、高レベルの意思決定と実時間での安定化を分離する。
- 主な理論的貢献は、完全次数システムへのゼロショット展開後に安全であり続けることに関する確率的な上界であり、安全性が内側状態の追従品質と、展開時の振る舞いの両方に明示的に結び付けられている。
- クアドロトンのナビゲーション課題に関する実験により、安全性保証を維持するには、低レベル制御器の帯域幅と追従性能が重要であることが示される。



