要旨: クレジット割当は強化学習(RL)における中核的な課題である。古典的なアクター・クリティック手法は、学習した価値関数に基づくきめ細かな優位度推定によってこの課題に対処する。しかし、学習された価値モデルは、現代の大規模言語モデル(LLM)のRLではしばしば避けられる。これは、従来の識別的クリティックは確実に学習することが難しいためである。我々は価値モデリングを再検討し、この困難さが部分的には表現力の制限によるものであると主張する。具体的には、表現複雑性理論は、既存の価値モデルが用いているワンショット予測パラダイムの下では、価値関数の近似が難しくなり得ることを示唆しており、我々のスケーリング実験では、そのようなクリティックがスケールによって確実に改善しないことが分かっている。この観察に動機づけられて、我々は生成的アクター・クリティック(GenAC)を提案する。GenACは、ワンショットのスカラー価値予測を、値の推定を行う前にチェイン・オブ・ソート推論を実行する生成的クリティックに置き換える。さらに、訓練を通じてクリティックが現在のアクターに対して適切にキャリブレーションされた状態を保つのを助けるIn-Context Conditioningを導入する。GenACは、価値近似、順位付けの信頼性、分布外一般化を改善し、これらの向上は、価値ベースおよび価値フリーのベースラインの両方よりも強い下流のRL性能へとつながる。総合すると、我々の結果は、より強力な価値モデリングが、LLM強化学習におけるクレジット割当を改善する有望な方向性であることを示唆している。
価値モデルを呼び戻す:LLM強化学習における価値モデリングのための生成的クリティック
arXiv cs.LG / 2026/4/14
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLM強化学習におけるRLのクレジット割当を再検討し、従来の識別的(1回限りのスカラー)価値クリティックは、1回限りの予測パラダイムの下では表現力が限られるため、信頼性高く訓練することが難しいと主張する。
- 表現複雑性理論を引用し、スケーリング実験により、これらのクリティックは規模を大きくしても一貫して改善しないことを示す。
- これに対処するため、著者らは生成的アクター・クリティック(GenAC)を提案し、1回限りの価値予測を、価値推定を出力する前に推論(チェーン・オブ・ソート)を行う生成的クリティックに置き換える。
- さらに、訓練中にクリティックが現在のアクターに対して較正された状態を保つために、インコンテキスト・コンディショニングを追加し、価値近似の品質と頑健性の両方を向上させる。
- 実験の結果、GenACはランキングの信頼性、分布外一般化、そして下流のRL性能において、価値ベースおよび価値フリーのベースラインよりも優れた性能を示す。




