GraSP-STL：オフライン目標条件付き強化学習によるゼロショット信号時間論理（STL）計画のためのグラフベースフレームワーク

arXiv cs.RO / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、信号時間論理（STL）仕様に対するオフラインのゼロショット計画を、グラフ探索に基づいて行うフレームワーク「GraSP-STL」を提案する。
タスク非依存の振る舞い方策から得られた状態-行動-状態遷移のオフラインデータセットのみを仮定し、動力学モデルは用いず、追加の環境相互作用も行わず、さらにタスク固有の再学習も行わない。
GraSP-STLはオフラインデータから目標条件付き価値関数を学習し、有限ホライゾン到達可能性の指標を導出する。そのうえで、短ホライゾン遷移の実行可能性をエッジとして表す、有向状態グラフの抽象化を構築する。
計画はウェイポイント列に対するグラフ探索として実行され、区間意味論を用いた算術幾何平均ロバストネスで評価され、その後、学習した目標条件付き方策によって実行される。
本フレームワークは、再利用可能な到達可能性学習と、タスク条件付き計画を切り離すことを目的としており、未見のSTLタスクへの一般化や、短ホライゾンのオフライン区間を用いた長ホライゾンな振る舞い合成を可能にする。

Abstract

本論文は，Signal Temporal Logic（STL）仕様のもとでの，オフラインかつゼロショットな計画について研究する．我々は，分析的な動力学モデルを持たず，それ以上の環境との相互作用もなく，タスク固有の再学習も行わないという前提のもと，タスク非依存の行動方策によって収集された状態-行動-状態の遷移に関するオフラインデータセットのみが利用可能であると仮定する．目的は，その結果として得られる軌道が，任意の未知のSTL仕様を満たすような制御戦略を合成することである．このために，我々は，オフライントラジェクトリからゼロショットSTL計画を行うためのグラフ探索ベースの枠組みGraSP-STLを提案する．提案手法は，オフラインデータから目標条件付き価値関数を学習し，それを用いて状態空間上の有限ホライゾン到達可能性指標を誘導する．この指標に基づき，代表的な状態を表すノードと，実現可能な短ホライゾン遷移を符号化するエッジからなる有向グラフの抽象化を構築する．その後，計画は，ウェイポイント系列に対するグラフ探索として定式化され，算術幾何平均ロバスト性およびその区間意味論を用いて評価され，学習された目標条件付き方策によって実行される．提案する枠組みは，再利用可能な到達可能性の学習をタスク条件付きの計画から分離することで，未知のSTLタスクへのゼロショットな汎化と，オフラインデータから短ホライゾン行動を合成することによる長ホライゾン計画を可能にする．実験結果は，様々なオフラインSTL計画タスクに対して，本手法の有効性を示している．