パラメータ化されたアクションによる強化学習のための、文脈に応じた抽象化

arXiv cs.AI / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、離散的な選択と連続的なパラメータで行動を規定する「パラメータ化された行動空間」を扱う、長い時間軸かつ疎な報酬設定における強化学習（RL）の課題を扱います。
著者らは、既存の計画手法や標準的なRLアルゴリズムがこの混在した行動設定に適していないこと、さらに過去のパラメータ化アクション向けRLの多くがドメイン依存の手作業を要し、行動空間の潜在構造を十分に活用できていないと指摘しています。
そこで、状態と行動の抽象化をオンラインで学習し、重要な状態-行動領域にだけ解像度を高めるよう段階的に抽象化を洗練していくアルゴリズムを提案します。
複数の「連続状態・パラメータ化アクション」領域での実験により、抽象化に基づく手法がサンプル効率を改善し、TD(λ)が有力なベースラインより大幅に高い性能を示すことが確認されます。
全体として、この研究は重い手作りのモデル化なしに、パラメータ化アクション環境に潜む構造をより活かせるようにRLの適用範囲を広げています。

要旨: 現実世界における逐次的意思決定は、多くの場合、パラメータ化された行動空間を伴い、その中では、離散的な行動に関する判断と、その行動の実行方法を規定する連続的な行動パラメータに関する判断の両方が必要になります。既存のアプローチには、この設定における重大な制約があります。すなわち、計画法は手作業で作られた行動モデルを要求し、標準的な強化学習（RL）アルゴリズムは離散行動か連続行動のどちらか一方に設計されていて、両方を扱うものではありません。また、パラメータ化された行動を扱える数少ないRL手法は、典型的に領域固有のエンジニアリングに依存しており、これらの空間に潜在する構造を活用できていません。本論文では、パラメータ化された行動に対して、長いホライズンで報酬が疎な状況におけるRLアルゴリズムの適用範囲を拡張し、エージェントがオンラインで状態と行動の両方の抽象化を自律的に学習できるようにします。学習の過程でこれらの抽象化を段階的に洗練させるアルゴリズムを提案し、状態—行動空間の中でも、より高い解像度が性能を向上させる重要領域において、細部を増やしていきます。いくつかの連続状態・パラメータ化行動の領域において、抽象化に基づく我々の手法は、TD( $\lambda$ )が最先端のベースラインよりも顕著に高いサンプル効率を達成できることを示します。