行動タスク・サンプリングによるゼロショット・オフライン強化学習の改善

arXiv cs.AI / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、環境への追加的な相互作用なしに未見の報酬関数を最適化することを目指すオフライン・ゼロショット強化学習を扱っている。
  • 既存手法ではタスクベクトルをランダムにサンプリングし、タスク空間の構造を十分に捉えられると暗黙に仮定しているが、それがゼロショット汎化を損なうと主張している。
  • 著者らは、オフラインデータセットからタスクベクトルを直接抽出し、それをポリシー学習に用いるタスク分布として構成することを提案する。
  • 既存のオフライン・ゼロショットRLに組み込める、シンプルで汎用的な報酬関数抽出手順を提示している。
  • 複数のベンチマークでの実験により、本手法は従来ベースラインに対してゼロショット性能を平均20%改善することが示されている。