強化学習におけるスキル移転のための予測的表現
arXiv cs.LG / 2026/4/9
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は強化学習における中核的なスケーリング課題を扱う。すなわち、エージェントが学習した行動をタスク間で一般化し、毎回最初から学び直すのではなく再利用できるようにすることである。
- 環境のアウトカム(結果)を予測することに基づいて構築される、タスク非依存の状態抽象として、Outcome-Predictive State Representations(OPSRs)を提案する。
- 著者らは、OPSRsが最適ではあるが限定的な移転を可能にすることを示し、移転の質と適用範囲の間に、形式的かつ実証的なトレードオフが存在することを明らかにする。
- この制限を克服するために、状態抽象によってタスク横断で再利用可能な、OPSRに基づくスキル(オプション形式の抽象的行動)を導入する。
- 実験の結果、デモンストレーションから学習したスキルは、新規で未知のタスクにおいても追加の前処理なしで、学習を大幅に高速化できることが示される。



