Lever:サポート制約下での推論時ポリシー再利用

arXiv cs.LG / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、強化学習(RL)の事前学習済みポリシーを推論時に再利用し、新しい合成目的に対して追加の環境相互作用なしで高品質なポリシーをオフラインで構成できるかを検討します。
  • 「lever」を提案し、事前学習済みポリシーの検索、行動埋め込み(behavioral embeddings)による評価、そしてオフラインQ値合成による新規ポリシーの合成を一連の枠組みとして実現します。
  • 価値伝播が不可能なサポート制限付きの状況に焦点を当て、再利用の有効性が利用可能な遷移のカバレッジに大きく左右されることを示します。
  • leverは、候補ポリシー探索の範囲を制御する合成戦略により、性能と計算コストのバランスを取ります。
  • 決定論的なGridWorldでの実験では、推論時のオフライン合成が学習からの作り直し(training-from-scratch)に匹敵、場合によっては上回ることがあり、同時に大きな速度向上も得られますが、価値伝播を要する長いホライズン依存では性能が低下します。

概要: 強化学習(RL)の方策は通常、固定された目的に対して訓練されるため、タスク要件が変化した際の再利用が困難です。本研究では、推論時の方策再利用を扱います。すなわち、事前に訓練された方策のライブラリと新しい複合目的が与えられたとき、追加の環境との相互作用なしに、完全にオフラインで高品質な方策を構築できるのでしょうか。私たちは、lever(Reusable policies を再利用可能にする効率的なベクトル埋め込みを活用する)を提案します。これは、関連する方策を検索し、行動埋め込みを用いてそれらを評価し、オフラインのQ値合成によって新しい方策を合成する、エンドツーエンドの枠組みです。本研究では、価値伝播が不可能な「サポート制限された」状況に焦点を当て、再利用の有効性が利用可能な遷移のカバレッジに決定的に依存することを示します。性能と計算コストの両立のために、leverは候補となる方策の探索を制御する合成戦略を提案します。決定論的な GridWorld 環境での実験では、推論時の合成が、学習を最初から行う場合の性能に匹敵し、場合によってはそれを上回りつつ、大幅な速度向上を提供できることを示します。一方で、長いホライゾンの依存関係が価値伝播を必要とする場合には性能が低下し、オフライン再利用の根本的な限界が浮き彫りになります。