正解と誤りが出会うとき: GRPOのための報酬-信頼度補正を用いた双方向コンテキスト条件付け
arXiv cs.AI / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論はグループ相対ポリシー最適化(GRPO)を再検討し、GRPOが各出力を独立したサンプルとして扱うため、同じグループ内における正解と誤答の対比を見逃している点を指摘する。
- 双方向コンテキスト条件付け(BICC)を導入し、追加のサンプリングや補助モデルを必要とせずに、最適化中に成功した推論経路と failedした推論経路を相互参照できるようにする。
- 訓練を安定化させるため、第一階の分散最小化推定量に基づく報酬-信頼度共分散を用いてアドバンテージのベースラインを動的に調整する、報酬-信頼度補正(RCC)を追加する。
- 提案手法はGRPOの対照的再定式化をもたらし、複数のモデルとアルゴリズムに渡る数学的推論ベンチマークにおいて経験的改善を示し、コードはGitHubで公開されている。




