条件付き期待報酬を用いた強化学習

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • CERを導入して、LLM自体を暗黙の検証者として活用し、手作りの外部ルールを回避しつつ検証可能な報酬を強化学習に組み込む。
  • CERは報酬を、生成された回答を条件として参照回答を生成する確率の期待値として定義し、二値のチェックではなく、柔らかく階調のあるフィードバック信号を提供する。
  • このアプローチは外部検証者や補助モデルの必要性を排除し、適用範囲を数学から一般的な推論タスクへと広げる。
  • 実験結果は CER が数学的および一般領域の推論タスクの双方で有効であることを示しており、検証機構としての柔軟性を示している。
  • CERを実装したコードはhttps://github.com/changyi7231/CERから入手可能。
検証可能な報酬を備えた強化学習(RLVR)は、大規模言語モデルの推論能力を高める効果があることが証明されており、特に信頼できるルールベースの検証者を構築できる数学のような分野で有効である。しかし、手作業で作成された領域固有の検証ルールへの依存は、自由形式の回答を含む一般的な推論領域への RLVR の適用を大きく制限し、妥当な回答がしばしば大きく変動するため、完全かつ正確なルールを確立することが難しい。この制約に対処するため、Conditional Expectation Reward(CER)を提案する。CER は大規模言語モデル自体を暗黙の検証者として活用し、一般領域へ適用可能で外部検証者や補助モデルを必要としない。CER は生成された回答を条件として参照回答を生成する確率の期待値として定義される。規則ベースの検証者が二値フィードバックを与えるのに対して、CER は正確さの程度が異なることを反映する柔らかく階調のある報酬信号を提供し、正確さが異なる回答が生じるタスクに適している。実験結果は、CER が数学的および一般領域の広い範囲の推論タスクに対して有効であることを示しており、CER が柔軟で一般的な検証機構として機能することを示している。コードは https://github.com/changyi7231/CER に入手可能である。