オフライン強化学習のためのダイナミック・ルーティング：対応ではなくサポートを保持する

arXiv cs.AI / 2026/4/27

💬 オピニオンModels & Research

共有:

要点

本論文は、ワンステップのオフライン強化学習における主要な制約、すなわちデータセットがサポートする行動から逸脱せずに、批評家（Q）に向けた政策改善を行う必要性に取り組む。
既存のワンステップ抽出手法では、学生の出力に対して「Qを高めること」と「対応するエンドポイント近傍に留まること」の2つを同時に要求するため、近傍により良いがローカルにサポートされる行動があっても妥協の損失が生じうると主張する。
提案手法DROLは、潜在変数に条件付けされたワンステップ方策であり、K個の候補行動をサンプルし、各データセット行動を最も近い候補へ割り当てるtop-1ダイナミック・ルーティングを行う。
学習ではルーティングされた「勝者」のみを、Behavior Cloningと批評家によるガイダンスの組み合わせで更新し、候補の幾何（配置）が学習中に変化するため、サポート領域の帰属が候補間で移動しうる。
OGBenchおよびD4RLでの実験では、DROLはワンステップFQLベースラインと競争力があり、多くのOGBenchタスク群で改善しつつ、AntMazeとAdroitでも強い性能を維持している。

Abstract

1ステップのオフラインRLアクターは、長い反復サンプラーを通じて逆伝播する必要がなく、推論コストを安く保てるため魅力的ですが、それでも、データセットが支えられる行動から逸れてしまうことなく、批評家（critic）のもとで改善しなければなりません。近年の1ステップ抽出パイプラインでは、強力な反復教師が潜在表現の各ドローに対して1つの目標行動を提供し、同じ学生の出力に対して、両方の役割を同時に達成することが求められます。すなわち、高いQへ近づくことと、その対応する終点（ペアになったエンドポイント）の近傍を保つことです。この2つの方向が食い違う場合、損失関数は、その同一サンプル上でそれらを妥協として解決します。たとえデータが局所的に支えられている、より近い（好ましい）行動が近傍にあったとしてもです。私たちはDROLを提案します。これは、トップ1の動的ルーティングで学習される潜在条件付きの1ステップアクターです。各状態に対して、アクターは有界な潜在事前分布から

K

個の候補行動をサンプルし、各データセットの行動をそれらのうち最も近い候補に割り当て、その勝者のみを、振る舞いのクローン（Behavior Cloning）と批評家のガイダンスで更新します。ルーティングは現在の候補の幾何（candidate geometry）から再計算されるため、学習の過程で、支えられた領域の「所有（ownership）」が候補間で移り変わり得ます。これにより、点ごとの抽出では捉えにくい局所的改善を1ステップアクターが行うための余地が生まれつつ、テスト時の単一パス推論も維持できます。OGBenchおよびD4RLにおいて、DROLは1ステップFQLのベースラインと競争力があり、多くのOGBenchタスクグループで改善を示し、AntMazeとAdroitの両方でも強力な性能を維持します。プロジェクトページ: https://muzhancun.github.io/preprints/DROL。