Abstract
多様な変化が存在する状況下で、特定のタスクに対する視覚入力を理解することは、視覚強化学習エージェントが直面する重要な課題である。我々は、移動強化学習のために汎化可能な表現を学習する手法である extit{Value Explicit Pretraining}(VEP)を提案する。VEPは、環境ダイナミクスや見た目の変化に対して不変となる表現を学習するエンコーダを用いることで、過去に学習したタスクと同様の目的を共有する新しいタスクを効率的に学習できるようにする。 extit{準最適なラベルなしデモデータ}(観測の系列と疎な報酬信号)を用いてエンコーダを事前学習するために、自己教師ありのコントラスト学習損失を用いる。この損失により、タスクの進捗を反映するモンテカルロ価値推定に基づいて、異なるタスク間の状態をモデルが関連付けることが可能となり、その結果、タスクの目的を捉える時間的に滑らかな表現が得られる。我々の手法と既存のアプローチとの大きな違いは、タスクを常に解けるとは限らない extit{準最適なラベルなしデータ}を用いる点である。Antロコモーション、現実的なナビゲーションシミュレータ、およびAtariベンチマークに関する実験により、VEPが未見のタスクへの汎化能力において、現在のSoTAの事前学習手法を上回ることが示される。VEPは報酬で最大2 imesの向上、サンプル効率で最大3 imesの向上を達成する。VEPポリシーの動画については、
\href{https://sites.google.com/view/value-explicit-pretraining/}{website} を参照されたい。