広告

$V_0$: 状態ゼロにおける任意のポリシーのための汎用(ゼネラリスト)バリューモデル

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、標準的なアクタークリティックLLM学習(例:PPO)では、進行中で絶えず更新されるポリシーに追随する必要のある価値/クリティック基準値を用いるため、しばしば高コストな同期的更新が必要になることを説明する。
  • GRPOはグループ平均報酬を基準値として用いることで、結合した価値モデルを取り除く方法を検討しているが、その代わりに推定値の安定性を保つために大量のサンプリングという負担が移る。
  • 著者らはパラメータ更新を行わずに、未見のプロンプトに対する期待性能を推定する汎用の価値モデル $V_0$ を提案する。そのために、モデルの能力の変化を明示的な文脈として扱う。
  • $V_0$ は「状態ゼロ」(初期プロンプト)で動作するものとして位置づけられ、命令と性能の履歴に基づいて、ロールアウト前に成功率を予測することで、学習時のサンプリング効率を高める。
  • これらの予測はデプロイ時にも用いられ、指示を最も費用対効果の高い適切なモデルへルーティングする。実験では、$V_0$ がヒューリスティックな予算配分より改善し、LLMルーティングにおいて強力な性能—コストのパレートトレードオフを達成することが示される。

Abstract

方策勾配法は、ある行動の相対的な優位性を測るためのベースラインに依存しており、その結果、現在の平均的な能力を上回る振る舞いをモデルが強化することを保証します。Actor-Critic手法(例: PPO)を用いて大規模言語モデル(LLM)を学習する場合、このベースラインは通常、方策モデル自体と同程度に大きいこともあるValue Model(Critic)によって推定されます。しかし、方策が継続的に更新されていくため、価値モデルは方策の変化する能力を正確に追跡するには、高コストで同期的な逐次学習を必要とします。このオーバーヘッドを避けるために、Group Relative Policy Optimization(GRPO)は、グループのロールアウトの平均報酬をベースラインとして用いることで、連動した価値モデルを取り除きます。それでも、この方法では推定の安定性を維持するために広範なサンプリングが必要になります。本論文では、パラメータ更新を必要とせずに、未知のプロンプトに対する任意のモデルの期待性能を推定可能なGeneralist Value ModelであるV_0を提案します。私たちは、方策の動的な能力を明示的なコンテキスト入力として扱うことで、価値推定を再構成します。具体的には、指示と性能のペアの履歴を用いてモデルを動的にプロファイルし、能力の変化を捉えるためにパラメータ当てはめに依存する従来の枠組みから切り離します。状態ゼロにおける価値推定(すなわち初期プロンプト、したがってV_0)に焦点を当てることで、私たちのモデルは重要なリソース・スケジューラとして機能します。GRPOの学習中、V_0はロールアウト前に成功率を予測するため、サンプリング予算を効率的に配分できます。導入(デプロイ)時には、ルータとして働き、命令(指示)を最も費用対効果が高く適切なモデルへ振り分けます。実験結果は、V_0がヒューリスティックな予算配分を大幅に上回り、LLMルーティング課題において性能とコストの間のパレート最適なトレードオフを達成することを示します。

広告