オムロン子会社の新強化学習技術、オンラインで全エピソードの安全保証

日経XTECH / 4/13/2026

📰 NewsIdeas & Deep AnalysisModels & Research

Read original →

共有:

Key Points

実環境で強化学習を行う際の主要課題である「試行錯誤中の安全性確保」に理論的に取り組み、制約違反や無理な動作のリスクを低減する手法を提案した。
オムロンサイニックエックス（OSX）などの研究グループは、指定した制約値を常に上回ることを狙うオンライン強化学習技術「OPSE-LCMDP」を開発し、線形MDPに適用してエピソード単位で高い確率の安全性保証を実現した。
成果はNeurIPS 2025年12月開催の国際会議で高評価（スポットライト）として採択され、研究のインパクトの大きさが示された。
論文の背景として、OSX研究者を中心に他大学の研究者も関与しており、関連テーマ（ロバスト制約付きMDP向け方策最適化）とのつながりも言及されている。

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

［画像のクリックで別ページへ］

　強化学習を実環境で使う場合の難所の一つは、試行錯誤の最中に安全性を確保することである。シミュレーションやオフラインのデータで学習させた制御方策であっても、実際の環境に適応させるための追加の学習は、多くの場合で避けられない。その際に無理な動作や制約違反があると大きな痛手になる。

　この問題に理論面から取り組んで有望な成果を得たのがオムロンの研究子会社、オムロンサイニックエックス（OSX）などの研究グループである。特定の変数の値が、指定した制約値を常に上回るようにすることで安全性を保つオンライン強化学習技術「OPSE-LCMDP」を開発した。線形マルコフ決定モデル（MDP）に適用した場合に、エピソード単位の安全性を高い確率で保証できる（図1）。詳細を報告した論文は、2025年12月に開催された機械学習分野でトップ級の国際会議「NeurIPS」で、評価の高さを意味する「スポットライト」として採択された^{1）、注1）}。

注1）論文の筆頭著者の北村俊徳氏は、現在University of AlbertaのCsaba Szepesvári教授の研究室にポスドク研究員として所属している。同氏の博士論文のアドバイザーはOSXの小津野将氏と東京大学の松尾豊教授で、両氏とも今回の論文に名前がある。今回の研究には複数のOSXの研究者に加えて、参考文献2）の筆頭著者であるNew Jersey Institute of TechnologyのArnob Ghosh氏、OSXが共同研究を進める京都大学の細江陽平准教授らも参加した。なお、北村氏は以前OSXでインターンをしていた。その際の成果である、ロバスト制約つきMDP（RCMDP）向け方策の最適化技術「EpiRC-PGS」については、本誌2025年7月号に解説記事がある。

OSXによれば、エピソード全体に対する制約値を満...

この記事は日経Robotics購読者限定です