Abstract
1ステップのオフラインRLアクターは、長い反復サンプラーを通じて逆伝播する必要がなく、推論コストを安く保てるため魅力的ですが、それでも、データセットが支えられる行動から逸れてしまうことなく、批評家(critic)のもとで改善しなければなりません。近年の1ステップ抽出パイプラインでは、強力な反復教師が潜在表現の各ドローに対して1つの目標行動を提供し、同じ学生の出力に対して、両方の役割を同時に達成することが求められます。すなわち、高いQへ近づくことと、その対応する終点(ペアになったエンドポイント)の近傍を保つことです。この2つの方向が食い違う場合、損失関数は、その同一サンプル上でそれらを妥協として解決します。たとえデータが局所的に支えられている、より近い(好ましい)行動が近傍にあったとしてもです。私たちはDROLを提案します。これは、トップ1の動的ルーティングで学習される潜在条件付きの1ステップアクターです。各状態に対して、アクターは有界な潜在事前分布からK個の候補行動をサンプルし、各データセットの行動をそれらのうち最も近い候補に割り当て、その勝者のみを、振る舞いのクローン(Behavior Cloning)と批評家のガイダンスで更新します。ルーティングは現在の候補の幾何(candidate geometry)から再計算されるため、学習の過程で、支えられた領域の「所有(ownership)」が候補間で移り変わり得ます。これにより、点ごとの抽出では捉えにくい局所的改善を1ステップアクターが行うための余地が生まれつつ、テスト時の単一パス推論も維持できます。OGBenchおよびD4RLにおいて、DROLは1ステップFQLのベースラインと競争力があり、多くのOGBenchタスクグループで改善を示し、AntMazeとAdroitの両方でも強力な性能を維持します。プロジェクトページ: https://muzhancun.github.io/preprints/DROL。