Abstract
方策勾配法は、ある行動の相対的な優位性を測るためのベースラインに依存しており、その結果、現在の平均的な能力を上回る振る舞いをモデルが強化することを保証します。Actor-Critic手法(例: PPO)を用いて大規模言語モデル(LLM)を学習する場合、このベースラインは通常、方策モデル自体と同程度に大きいこともあるValue Model(Critic)によって推定されます。しかし、方策が継続的に更新されていくため、価値モデルは方策の変化する能力を正確に追跡するには、高コストで同期的な逐次学習を必要とします。このオーバーヘッドを避けるために、Group Relative Policy Optimization(GRPO)は、グループのロールアウトの平均報酬をベースラインとして用いることで、連動した価値モデルを取り除きます。それでも、この方法では推定の安定性を維持するために広範なサンプリングが必要になります。本論文では、パラメータ更新を必要とせずに、未知のプロンプトに対する任意のモデルの期待性能を推定可能なGeneralist Value ModelであるV_0を提案します。私たちは、方策の動的な能力を明示的なコンテキスト入力として扱うことで、価値推定を再構成します。具体的には、指示と性能のペアの履歴を用いてモデルを動的にプロファイルし、能力の変化を捉えるためにパラメータ当てはめに依存する従来の枠組みから切り離します。状態ゼロにおける価値推定(すなわち初期プロンプト、したがってV_0)に焦点を当てることで、私たちのモデルは重要なリソース・スケジューラとして機能します。GRPOの学習中、V_0はロールアウト前に成功率を予測するため、サンプリング予算を効率的に配分できます。導入(デプロイ)時には、ルータとして働き、命令(指示)を最も費用対効果が高く適切なモデルへ振り分けます。実験結果は、V_0がヒューリスティックな予算配分を大幅に上回り、LLMルーティング課題において性能とコストの間のパレート最適なトレードオフを達成することを示します。