条件付き期待報酬を用いた強化学習

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

CERを導入して、LLM自体を暗黙の検証者として活用し、手作りの外部ルールを回避しつつ検証可能な報酬を強化学習に組み込む。
CERは報酬を、生成された回答を条件として参照回答を生成する確率の期待値として定義し、二値のチェックではなく、柔らかく階調のあるフィードバック信号を提供する。
このアプローチは外部検証者や補助モデルの必要性を排除し、適用範囲を数学から一般的な推論タスクへと広げる。
実験結果は CER が数学的および一般領域の推論タスクの双方で有効であることを示しており、検証機構としての柔軟性を示している。
CERを実装したコードはhttps://github.com/changyi7231/CERから入手可能。

検証可能な報酬を備えた強化学習（RLVR）は、大規模言語モデルの推論能力を高める効果があることが証明されており、特に信頼できるルールベースの検証者を構築できる数学のような分野で有効である。しかし、手作業で作成された領域固有の検証ルールへの依存は、自由形式の回答を含む一般的な推論領域への RLVR の適用を大きく制限し、妥当な回答がしばしば大きく変動するため、完全かつ正確なルールを確立することが難しい。この制約に対処するため、Conditional Expectation Reward（CER）を提案する。CER は大規模言語モデル自体を暗黙の検証者として活用し、一般領域へ適用可能で外部検証者や補助モデルを必要としない。CER は生成された回答を条件として参照回答を生成する確率の期待値として定義される。規則ベースの検証者が二値フィードバックを与えるのに対して、CER は正確さの程度が異なることを反映する柔らかく階調のある報酬信号を提供し、正確さが異なる回答が生じるタスクに適している。実験結果は、CER が数学的および一般領域の広い範囲の推論タスクに対して有効であることを示しており、CER が柔軟で一般的な検証機構として機能することを示している。コードは https://github.com/changyi7231/CER に入手可能である。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

日本企業「ブラックボックス戦略」の断末魔、AI時代に慌てても手遅れかもな

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

AI時代のトラフィックはますます予測困難に、NaaSによる柔軟な制御が不可欠

日経XTECH

条件付き期待報酬を用いた強化学習

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日本企業「ブラックボックス戦略」の断末魔、AI時代に慌てても手遅れかもな

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

AI時代のトラフィックはますます予測困難に、NaaSによる柔軟な制御が不可欠

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer