学習可能な表現の転移を促すための価値を明示した事前学習

arXiv cs.RO / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、環境の変化に直面する強化学習エージェントが、タスクをまたいで汎用的に使える視覚表現を学習するための手法として Value Explicit Pretraining(VEP)を提案している。
  • VEPは、モンテカルロの価値推定(タスク進捗を反映)に基づく自己教師ありコントラスト損失を用いて、ラベルなしの「最適でない」デモデータでエンコーダを事前学習する。
  • 目的に関連する情報を捉えつつ、環境ダイナミクスと見た目の変化に対して表現を不変にし、さらに時間的に滑らかな表現を得ることを狙っている。
  • Ant locomotion、現実的なナビゲーションシミュレータ、Atariベンチマークでの実験では、VEPが未見のタスクへの汎化で既存の事前学習の最先端手法を上回り、報酬で最大2倍、サンプル効率で最大3倍の改善を示した。
  • 既存手法との大きな違いは、事前学習時にタスクを必ず解けるとは限らない「最適でない」ラベルなしデータを活用する点にある。

Abstract

多様な変化が存在する状況下で、特定のタスクに対する視覚入力を理解することは、視覚強化学習エージェントが直面する重要な課題である。我々は、移動強化学習のために汎化可能な表現を学習する手法である extit{Value Explicit Pretraining}(VEP)を提案する。VEPは、環境ダイナミクスや見た目の変化に対して不変となる表現を学習するエンコーダを用いることで、過去に学習したタスクと同様の目的を共有する新しいタスクを効率的に学習できるようにする。 extit{準最適なラベルなしデモデータ}(観測の系列と疎な報酬信号)を用いてエンコーダを事前学習するために、自己教師ありのコントラスト学習損失を用いる。この損失により、タスクの進捗を反映するモンテカルロ価値推定に基づいて、異なるタスク間の状態をモデルが関連付けることが可能となり、その結果、タスクの目的を捉える時間的に滑らかな表現が得られる。我々の手法と既存のアプローチとの大きな違いは、タスクを常に解けるとは限らない extit{準最適なラベルなしデータ}を用いる点である。Antロコモーション、現実的なナビゲーションシミュレータ、およびAtariベンチマークに関する実験により、VEPが未見のタスクへの汎化能力において、現在のSoTAの事前学習手法を上回ることが示される。VEPは報酬で最大2 imesの向上、サンプル効率で最大3 imesの向上を達成する。VEPポリシーの動画については、 \href{https://sites.google.com/view/value-explicit-pretraining/}{website} を参照されたい。