EVPO：LLMのポストトレーニングにおける適応的クリティック活用のための説明分散ポリシー最適化

arXiv cs.LG / 2026/4/22

📰 ニュースModels & Research

共有:

要点

この論文は、LLMのポストトレーニングにおけるRLの重要な設計選択として、「学習済みクリティックを基線として政策最適化に使うかどうか」が分散挙動に与える影響を扱っています。
疎報酬設定では、学習済みクリティックが状態信号を上回る推定ノイズを持ち込み、アドバンテージ分散を減らすどころか増やし得ることを指摘し、PPOとクリティック不要のGRPOをカルマンフィルタリングとして統一的に捉えます。
基線選択を説明分散（EV）で表すことで、単一バッチから計算可能な基準を導出し、「EVが正ならクリティックが分散を減らし、ゼロ／負なら増やす」ことを示します。
その洞察に基づき、説明分散に応じて各ステップで「クリティックベース」と「バッチ平均アドバンテージ推定」を適応的に切り替えるExplained Variance Policy Optimization（EVPO）を提案し、各ステップでより良い方に劣らない分散を保証します。
古典制御、エージェント的相互作用、数学的推論の4系統のタスクでの実験では、EVPOがPPOとGRPOの両方を一貫して上回り、さらにEVベースのゲーティングがクリティックの成熟を追跡し、EVのゼロ閾値が実験的に最適であることも示されています。