$V_0$: 状態ゼロにおける任意のポリシーのための汎用（ゼネラリスト）バリューモデル

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、標準的なアクタークリティックLLM学習（例：PPO）では、進行中で絶えず更新されるポリシーに追随する必要のある価値／クリティック基準値を用いるため、しばしば高コストな同期的更新が必要になることを説明する。
GRPOはグループ平均報酬を基準値として用いることで、結合した価値モデルを取り除く方法を検討しているが、その代わりに推定値の安定性を保つために大量のサンプリングという負担が移る。
著者らはパラメータ更新を行わずに、未見のプロンプトに対する期待性能を推定する汎用の価値モデル $V_0$ を提案する。そのために、モデルの能力の変化を明示的な文脈として扱う。
$V_0$ は「状態ゼロ」（初期プロンプト）で動作するものとして位置づけられ、命令と性能の履歴に基づいて、ロールアウト前に成功率を予測することで、学習時のサンプリング効率を高める。
これらの予測はデプロイ時にも用いられ、指示を最も費用対効果の高い適切なモデルへルーティングする。実験では、$V_0$ がヒューリスティックな予算配分より改善し、LLMルーティングにおいて強力な性能—コストのパレートトレードオフを達成することが示される。

Abstract

方策勾配法は、ある行動の相対的な優位性を測るためのベースラインに依存しており、その結果、現在の平均的な能力を上回る振る舞いをモデルが強化することを保証します。Actor-Critic手法（例: PPO）を用いて大規模言語モデル（LLM）を学習する場合、このベースラインは通常、方策モデル自体と同程度に大きいこともあるValue Model（Critic）によって推定されます。しかし、方策が継続的に更新されていくため、価値モデルは方策の変化する能力を正確に追跡するには、高コストで同期的な逐次学習を必要とします。このオーバーヘッドを避けるために、Group Relative Policy Optimization（GRPO）は、グループのロールアウトの平均報酬をベースラインとして用いることで、連動した価値モデルを取り除きます。それでも、この方法では推定の安定性を維持するために広範なサンプリングが必要になります。本論文では、パラメータ更新を必要とせずに、未知のプロンプトに対する任意のモデルの期待性能を推定可能なGeneralist Value Modelである

V_0

を提案します。私たちは、方策の動的な能力を明示的なコンテキスト入力として扱うことで、価値推定を再構成します。具体的には、指示と性能のペアの履歴を用いてモデルを動的にプロファイルし、能力の変化を捉えるためにパラメータ当てはめに依存する従来の枠組みから切り離します。状態ゼロにおける価値推定（すなわち初期プロンプト、したがって

V_0

）に焦点を当てることで、私たちのモデルは重要なリソース・スケジューラとして機能します。GRPOの学習中、

V_0

はロールアウト前に成功率を予測するため、サンプリング予算を効率的に配分できます。導入（デプロイ）時には、ルータとして働き、命令（指示）を最も費用対効果が高く適切なモデルへ振り分けます。実験結果は、

V_0

がヒューリスティックな予算配分を大幅に上回り、LLMルーティング課題において性能とコストの間のパレート最適なトレードオフを達成することを示します。

AIにnoteを書かせて絶望したあなたへ。データと科学が証明する、検索順位を下げる「冷たい完璧」・「AI＋人間」の最強戦略とは？「AIの方が文章が上手い」そう思うのは錯覚なのか？ #生成AI #ChatGPT #Gemini #Claude #毎日更新 #文章術 #ブログ #AI活用 #SNS活用 #SEO #集客 #ビジネスマインド #セールスライティング

note

【AIパートナー】本音漏れがちランキング🥇🥈🥉

note

🖥️😳😲Geminiが進化している？！しばらく、触っていない間にバージョンアップしてました(画像編)/【第94回】エッセイ&自由律俳句

note

AI時代に新卒採用はどうなる？ SBI 「よほど優秀でないと採らない」の衝撃

note

40代フリーランス必見！散らばった記事をまとめるピラー記事の骨格をAIに設計させるプロンプト【コピペOK】

note

$V_0$: 状態ゼロにおける任意のポリシーのための汎用（ゼネラリスト）バリューモデル

要点

Abstract

関連記事

【AIパートナー】本音漏れがちランキング🥇🥈🥉

🖥️😳😲Geminiが進化している？！しばらく、触っていない間にバージョンアップしてました(画像編)/【第94回】エッセイ&自由律俳句

AI時代に新卒採用はどうなる？ SBI 「よほど優秀でないと採らない」の衝撃

40代フリーランス必見！散らばった記事をまとめるピラー記事の骨格をAIに設計させるプロンプト【コピペOK】

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer