要旨: 基本的な到達・回避・到達回避問題に対するベルマン方程式はよく研究されているが、割引なしの無限ホライズン設定では、価値の最適性と方策の最適性の関係が、特により複雑な課題において微妙になる。Q関数を貪欲に最大化すると、到達回避問題、あるいは同値な Until(まで)仕様に対して、価値関数が最適であっても、タスクの完了を無期限に先延ばしする方策が生じうる。時間論理(TL)に対して価値関数を構成する価値関数のグラフへ分解する最近の結果を土台として、状態履歴に基づく非マルコフ方策を構成し、この病理(問題)を回避し、入れ子のUntil、Globally(常に)、およびGlobally-Until仕様に対する定量的ロバストネススコアに関してそれらの最適性を証明する。さらに、複雑なTL仕様に対する安全フィルタとしてQ関数がどのように機能しうるかを示し、先行研究を単純な回避または到達回避の課題を超えて拡張する。
時間論理(Temporal Logic)の価値関数:最適方策と安全フィルタ
arXiv cs.RO / 2026/5/5
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、割引なしの無限ホライズン設定における到達・回避・到達回避問題を扱い、価値関数の最適性が必ずしも方策の最適性につながらない点を示しています。
- 到達回避課題(Until仕様に相当)では、Q関数を貪欲に最大化すると、価値関数が最適でもタスクの完了を無期限に先延ばしする方策が生じうることを明らかにしています。
- 直近の時間論理(TL)の価値関数分解に基づき、状態履歴に依存する非マルコフ方策を構成し、定量的ロバスト性スコアの下でネストされたUntil、Globally、Globally-Until仕様に対する最適性を証明しています。
- さらに、Q関数を用いて複雑なTL仕様に対する安全フィルタとして機能させる方法を示し、単純な回避や到達回避を超えて拡張しています。
