キャスケード動力学システムにおけるゼロショット強化学習の安全性保証

arXiv cs.AI / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、内側の状態が外側の状態に影響を与える一方で逆はないキャスケード動力学システムに対して、ゼロショットの安全性保証を得る方法を研究する。
安全性を、全時刻にわたって高確率の「安全集合（safe set）」の範囲内に留まることとして定義し、内側状態の動力学を無視した縮約次数モデル上で安全なRLポリシーを訓練し、その影響を行動を通じてモデル化することを提案する。
完全なシステムへの展開では、RLポリシーを低レベルの制御器と組み合わせて、RLが提供する参照（reference）を追従させることで、高レベルの意思決定と実時間での安定化を分離する。
主な理論的貢献は、完全次数システムへのゼロショット展開後に安全であり続けることに関する確率的な上界であり、安全性が内側状態の追従品質と、展開時の振る舞いの両方に明示的に結び付けられている。
クアドロトンのナビゲーション課題に関する実験により、安全性保証を維持するには、低レベル制御器の帯域幅と追従性能が重要であることが示される。

Abstract

本論文では、カスケード動的システムに対するゼロショット安全保証の問題を考察する。これは、状態の一部（内側の状態）が、残りの状態（外側の状態）のダイナミクスに影響を与えるが、その逆はないようなシステムである。安全性を、すべての時刻において高い確率で安全集合に留まることとして定義する。我々は、内側の状態のダイナミクスを無視する簡約次元モデル上で、安全な強化学習（RL）方策を訓練することを提案する。ただし、内側の状態は外側の状態に影響を与える行動として扱う。これにより、学習の複雑さを低減する。全システムに展開する際には、訓練済み方策は、RL方策が与える参照（リファレンス）を追跡することが役割である低レベルのコントローラと組み合わされる。本研究の主要な理論的貢献は、フルオーダー（全次元）のシステムにおける安全確率の上界を与えることである。特に、ゼロショット展開後に安全であり続ける確率と、内側の状態の追跡の質との相互関係を確立する。我々は、クアドロトーア（四旋回機）のナビゲーション課題において理論的知見を検証し、安全保証の保持が、低レベルコントローラの帯域幅と追跡能力に結びついていることを示す。