事前認可における適応的ポリシー取得のためのオフライン強化学習

arXiv cs.LG / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 事前認可(PA)のポリシー取得を、エージェントが追加のポリシーチャンクを適応的に選択するか、停止して判断を下すかを決める逐次意思決定プロセス(MDP)として定式化し、精度と取得コストの間のトレードオフを最適化する。
  • この手法は、合成のPAリクエストに対するベースラインの上位K取得戦略から生成したログ付き軌跡を用い、Conservative Q-Learning(CQL)、Implicit Q-Learning(IQL)、およびDirect Preference Optimization(DPO)によりオフラインRL設定で学習される。
  • 10個のCMS手続きにまたがる186個のポリシーチャンクのデータセット上で、CQLは意思決定精度92%を達成し、網羅的取得を用いた最良の固定Kベースラインより30ポイント向上する。
  • IQLは基準に匹敵する精度を維持しつつ取得ステップを44%削減し、エピソードリターンが正になる唯一の手法であり、学習された停止行動により効率が良いことを示す。
  • 遷移レベルのDPOはCQLと同等の92%精度を達成しつつ、取得ステップを約47%少なくし、結果は取得ステップのコストλに強く依存する(λ=0.2付近で選択的挙動と網羅的挙動が変化する)。

要旨: 事前承認(PA)では、複雑で断片化された補償ポリシーを解釈する必要がある一方で、既存の検索拡張(retrieval-augmented)システムは、固定された取得セクション数を伴う静的な上位K戦略に依存しています。この固定的な取得は非効率で、無関係または不十分な情報を集めてしまう可能性があります。私たちはPAにおけるポリシー検索を、逐次意思決定問題としてモデル化し、適応的検索をマルコフ決定過程(MDP)として定式化します。提案システムでは、エージェントが上位Kの候補集合からポリシーチャンクを反復的に選択するか、停止して意思決定を行うことを選びます。報酬は、意思決定の正確さと検索コストの両者のバランスを取り、精度と効率のトレードオフを捉えます。私たちは、オフラインRLの設定において、Conservative Q-Learning(CQL)、Implicit Q-Learning(IQL)、Direct Preference Optimization(DPO)を用いて方策を訓練します。訓練データは、公開されているCMS補償データから生成した合成PAリクエストに対する、ベースライン検索戦略によって生成されたログ付き軌跡です。CMS手順10件にまたがる186のポリシーチャンクのコーパスでは、CQLは網羅的検索により92%の意思決定精度(最良の固定Kベースラインに対して+30パーセンテージポイント)を達成します。一方でIQLは、44%少ない検索ステップで最良ベースライン精度に一致し、さらに全ての方策の中で唯一正のエピソードリターンを達成します。遷移レベルのDPOは、47%少ない検索ステップ(10.6対20.0)を用いながらCQLと同じ92%の精度を実現し、CQLとBCの両方を上回るパレートフロンティア上の「selective-accurate(選択的で正確)」領域を占めます。行動クローニング(behavioral cloning)のベースラインはCQLに一致し、選択的検索を学習するには、アドバンテージ重み付けまたは選好ベースの方策抽出が必要であることを裏付けます。ステップコストに対するLambdaのアブレーション(lambda \in \{0.05,0.1,0.2\})により、精度と効率の明確な折れ曲がり(inflection)が明らかになります。CQLが網羅的検索から選択的検索へ移行するのはlambda = 0.2 のときだけです。