EVPO:LLMのポストトレーニングにおける適応的クリティック活用のための説明分散ポリシー最適化
arXiv cs.LG / 2026/4/22
📰 ニュースModels & Research
要点
- この論文は、LLMのポストトレーニングにおけるRLの重要な設計選択として、「学習済みクリティックを基線として政策最適化に使うかどうか」が分散挙動に与える影響を扱っています。
- 疎報酬設定では、学習済みクリティックが状態信号を上回る推定ノイズを持ち込み、アドバンテージ分散を減らすどころか増やし得ることを指摘し、PPOとクリティック不要のGRPOをカルマンフィルタリングとして統一的に捉えます。
- 基線選択を説明分散(EV)で表すことで、単一バッチから計算可能な基準を導出し、「EVが正ならクリティックが分散を減らし、ゼロ/負なら増やす」ことを示します。
- その洞察に基づき、説明分散に応じて各ステップで「クリティックベース」と「バッチ平均アドバンテージ推定」を適応的に切り替えるExplained Variance Policy Optimization(EVPO)を提案し、各ステップでより良い方に劣らない分散を保証します。
- 古典制御、エージェント的相互作用、数学的推論の4系統のタスクでの実験では、EVPOがPPOとGRPOの両方を一貫して上回り、さらにEVベースのゲーティングがクリティックの成熟を追跡し、EVのゼロ閾値が実験的に最適であることも示されています。



