強化学習におけるスキル移転のための予測的表現

arXiv cs.LG / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は強化学習における中核的なスケーリング課題を扱う。すなわち、エージェントが学習した行動をタスク間で一般化し、毎回最初から学び直すのではなく再利用できるようにすることである。
  • 環境のアウトカム(結果)を予測することに基づいて構築される、タスク非依存の状態抽象として、Outcome-Predictive State Representations(OPSRs)を提案する。
  • 著者らは、OPSRsが最適ではあるが限定的な移転を可能にすることを示し、移転の質と適用範囲の間に、形式的かつ実証的なトレードオフが存在することを明らかにする。
  • この制限を克服するために、状態抽象によってタスク横断で再利用可能な、OPSRに基づくスキル(オプション形式の抽象的行動)を導入する。
  • 実験の結果、デモンストレーションから学習したスキルは、新規で未知のタスクにおいても追加の前処理なしで、学習を大幅に高速化できることが示される。

Abstract

強化学習をスケールアップする際の重要な課題は、学習した振る舞いを汎化することです。獲得した知識を引き継ぐことができなければ、エージェントは各タスクを最初から学習することを余儀なくされます。本論文では、状態の抽象化により実現される、転移のための新しい形式主義を開発します。環境のタスク非依存でコンパクトな観測(結果)に基づき、結果の予測から構成される、エージェント中心かつタスク非依存な抽象化であるOutcome-Predictive State Representations(OPSRs:結果予測型状態表現)を導入します。これらが最適だが限定的な転移の可能性を、形式的および実験的に示したうえで、そのトレードオフを、OPSRに基づくスキル、すなわち状態抽象化の結果としてタスク間で再利用可能な抽象的な行動(オプションに基づく)を導入することで乗り越えます。一連の実証的研究において、デモンストレーションからOPSRベースのスキルを学習し、事前処理なしで、完全に新しく未見のタスクにおいて学習を大幅に速める方法を示します。本研究で導入する枠組みは、一般にRLにおける転移、そして特に状態と行動の抽象化を組み合わせることで転移を実現するための有望な一歩であると考えています。