GraSP-STL:オフライン目標条件付き強化学習によるゼロショット信号時間論理(STL)計画のためのグラフベースフレームワーク
arXiv cs.RO / 2026/4/1
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、信号時間論理(STL)仕様に対するオフラインのゼロショット計画を、グラフ探索に基づいて行うフレームワーク「GraSP-STL」を提案する。
- タスク非依存の振る舞い方策から得られた状態-行動-状態遷移のオフラインデータセットのみを仮定し、動力学モデルは用いず、追加の環境相互作用も行わず、さらにタスク固有の再学習も行わない。
- GraSP-STLはオフラインデータから目標条件付き価値関数を学習し、有限ホライゾン到達可能性の指標を導出する。そのうえで、短ホライゾン遷移の実行可能性をエッジとして表す、有向状態グラフの抽象化を構築する。
- 計画はウェイポイント列に対するグラフ探索として実行され、区間意味論を用いた算術幾何平均ロバストネスで評価され、その後、学習した目標条件付き方策によって実行される。
- 本フレームワークは、再利用可能な到達可能性学習と、タスク条件付き計画を切り離すことを目的としており、未見のSTLタスクへの一般化や、短ホライゾンのオフライン区間を用いた長ホライゾンな振る舞い合成を可能にする。




