事前認可における適応的ポリシー取得のためのオフライン強化学習

arXiv cs.LG / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

事前認可（PA）のポリシー取得を、エージェントが追加のポリシーチャンクを適応的に選択するか、停止して判断を下すかを決める逐次意思決定プロセス（MDP）として定式化し、精度と取得コストの間のトレードオフを最適化する。
この手法は、合成のPAリクエストに対するベースラインの上位K取得戦略から生成したログ付き軌跡を用い、Conservative Q-Learning（CQL）、Implicit Q-Learning（IQL）、およびDirect Preference Optimization（DPO）によりオフラインRL設定で学習される。
10個のCMS手続きにまたがる186個のポリシーチャンクのデータセット上で、CQLは意思決定精度92%を達成し、網羅的取得を用いた最良の固定Kベースラインより30ポイント向上する。
IQLは基準に匹敵する精度を維持しつつ取得ステップを44%削減し、エピソードリターンが正になる唯一の手法であり、学習された停止行動により効率が良いことを示す。
遷移レベルのDPOはCQLと同等の92%精度を達成しつつ、取得ステップを約47%少なくし、結果は取得ステップのコストλに強く依存する（λ=0.2付近で選択的挙動と網羅的挙動が変化する）。

要旨: 事前承認（PA）では、複雑で断片化された補償ポリシーを解釈する必要がある一方で、既存の検索拡張（retrieval-augmented）システムは、固定された取得セクション数を伴う静的な上位 $K$ 戦略に依存しています。この固定的な取得は非効率で、無関係または不十分な情報を集めてしまう可能性があります。私たちはPAにおけるポリシー検索を、逐次意思決定問題としてモデル化し、適応的検索をマルコフ決定過程（MDP）として定式化します。提案システムでは、エージェントが上位 $K$ の候補集合からポリシーチャンクを反復的に選択するか、停止して意思決定を行うことを選びます。報酬は、意思決定の正確さと検索コストの両者のバランスを取り、精度と効率のトレードオフを捉えます。私たちは、オフラインRLの設定において、Conservative Q-Learning（CQL）、Implicit Q-Learning（IQL）、Direct Preference Optimization（DPO）を用いて方策を訓練します。訓練データは、公開されているCMS補償データから生成した合成PAリクエストに対する、ベースライン検索戦略によって生成されたログ付き軌跡です。CMS手順10件にまたがる186のポリシーチャンクのコーパスでは、CQLは網羅的検索により92%の意思決定精度（最良の固定 $K$ ベースラインに対して+30パーセンテージポイント）を達成します。一方でIQLは、44%少ない検索ステップで最良ベースライン精度に一致し、さらに全ての方策の中で唯一正のエピソードリターンを達成します。遷移レベルのDPOは、47%少ない検索ステップ（10.6対20.0）を用いながらCQLと同じ92%の精度を実現し、CQLとBCの両方を上回るパレートフロンティア上の「selective-accurate（選択的で正確）」領域を占めます。行動クローニング（behavioral cloning）のベースラインはCQLに一致し、選択的検索を学習するには、アドバンテージ重み付けまたは選好ベースの方策抽出が必要であることを裏付けます。ステップコストに対するLambdaのアブレーション（ $lambda \in \{0.05,0.1,0.2\}$ ）により、精度と効率の明確な折れ曲がり（inflection）が明らかになります。CQLが網羅的検索から選択的検索へ移行するのは $lambda = 0.2$ のときだけです。

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

日経XTECH

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

Reddit r/MachineLearning

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

Hugging Face Blog

コンテキストウィンドウが（ばかげるほど）大きくなっている――それは良いことだ

Dev.to

Geminiが素晴らしくても、GoogleはAIファースト企業ではない

Reddit r/artificial

事前認可における適応的ポリシー取得のためのオフライン強化学習

要点

関連記事

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

コンテキストウィンドウが（ばかげるほど）大きくなっている――それは良いことだ

Geminiが素晴らしくても、GoogleはAIファースト企業ではない

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer