制約付き線形二次レギュレータに対するセーフ・ラーニングベース制御の準最適レグレット解析

arXiv cs.LG / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、各時刻で安全制約を満たす必要がある制約付き確率的LQR(線形二次レギュレータ)の適応制御を扱う。
  • 従来研究では、多次元の問題に対してロバスト制約を用いることで o(T^{2/3}) のレグレットが示されていたが、制約付きLQRで o(sqrt(T)) が達成できるかは未解決だった。
  • 著者らは、chance constraints(確率制約)により o(sqrt(T)) の準最適レグレットと制約充足を証明し、これにより非有界なノイズを扱えることやロバスト制約とは異なる解析手法が可能になる点を示している。
  • 提案手法ではSDP(半正定値計画)を用いて楽観的な方策を選び、その方策を「安全が検証できる」までスケールダウンする。
  • 分析では、選んだ方策に基づいて系の共分散を抑える重要な補題により、レグレットと制約保証を確立しており、適応LQRで典型的に用いられる cost-to-go(コスト・ツー・ゴー)に基づく解析とは対照的である。

要旨: 本論文では、各時刻ステップで満たされなければならない制約を伴う確率的線形二次レギュレータ(LQR)の適応制御問題を研究する。これまでの多次元の場合の先行研究では、 ilde{O}(T^{2/3})} の遅れ(regret)とロバスト制約の満足が示されてきたが、制約付きLQR設定において ilde{O}(sqrt{T}) の遅れが達成できるかどうかは未解決の問題として残っていた。われわれは、この問題に対して ilde{O}(sqrt{T}) の遅れと確率的制約(chance constraints)の満足を示すことで貢献する。この種の制約により、非有界なノイズを扱うことができるだけでなく、ロバスト制約には直接適用できない解析手法も可能になる。本問題のために提案するアルゴリズムは、SDPを用いて楽観的な方策を選択し、その後「検証可能な安全性が確保できるところまで」その方策を「スケールバック」する。理論解析では、選択した方策に応じてシステムの共分散を上から抑える重要な補題により、遅れと制約に関する保証を確立する。この共分散に基づく解析は、通常適応LQRで用いられるコスト・トゥ・ゴー(cost-to-go)に基づく解析とは対照的である。