強化学習を実環境で使う場合の難所の一つは、試行錯誤の最中に安全性を確保することである。シミュレーションやオフラインのデータで学習させた制御方策であっても、実際の環境に適応させるための追加の学習は、多くの場合で避けられない。その際に無理な動作や制約違反があると大きな痛手になる。
この問題に理論面から取り組んで有望な成果を得たのがオムロンの研究子会社、オムロン サイニックエックス(OSX)などの研究グループである。特定の変数の値が、指定した制約値を常に上回るようにすることで安全性を保つオンライン強化学習技術「OPSE-LCMDP」を開発した。線形マルコフ決定モデル(MDP)に適用した場合に、エピソード単位の安全性を高い確率で保証できる(図1)。詳細を報告した論文は、2025年12月に開催された機械学習分野でトップ級の国際会議「NeurIPS」で、評価の高さを意味する「スポットライト」として採択された1)、注1)。
注1)論文の筆頭著者の北村俊徳氏は、現在University of AlbertaのCsaba Szepesvári教授の研究室にポスドク研究員として所属している。同氏の博士論文のアドバイザーはOSXの小津野 将氏と東京大学の松尾 豊教授で、両氏とも今回の論文に名前がある。今回の研究には複数のOSXの研究者に加えて、参考文献2)の筆頭著者であるNew Jersey Institute of TechnologyのArnob Ghosh氏、OSXが共同研究を進める京都大学の細江陽平准教授らも参加した。なお、北村氏は以前OSXでインターンをしていた。その際の成果である、ロバスト制約つきMDP(RCMDP)向け方策の最適化技術「EpiRC-PGS」については、本誌2025年7月号に解説記事がある。
次のページ
OSXによれば、エピソード全体に対する制約値を満...この記事は日経Robotics購読者限定です





