Rewardマシンと信号時間論理(STL)で複雑なタスクに取り組む方法

arXiv cs.AI / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本稿は、強化学習(RL)の制御設計フレームワークを提案し、Reward Machines(RM)を拡張して信号時間論理(STL)式を用い、複雑なタスクに対する報酬生成を行います。
  • STLを使うことで、複雑なタスクの報酬をより効率的に表現しつつ、学習を通じて指定された要件を満たす行動へ収束させることを狙います。
  • STLのオンライン・モニタリングアルゴリズムを活用した実装も提案されており、学習中にフレームワークを支えます。
  • MiniGrid、Cart-Pole、高速道路(highway)環境の3つのケーススタディで、難しいタスクを用いて評価しています。