AI Navigate

正解と誤りが出会うとき: GRPOのための報酬-信頼度補正を用いた双方向コンテキスト条件付け

arXiv cs.AI / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論はグループ相対ポリシー最適化(GRPO)を再検討し、GRPOが各出力を独立したサンプルとして扱うため、同じグループ内における正解と誤答の対比を見逃している点を指摘する。
  • 双方向コンテキスト条件付け(BICC)を導入し、追加のサンプリングや補助モデルを必要とせずに、最適化中に成功した推論経路と failedした推論経路を相互参照できるようにする。
  • 訓練を安定化させるため、第一階の分散最小化推定量に基づく報酬-信頼度共分散を用いてアドバンテージのベースラインを動的に調整する、報酬-信頼度補正(RCC)を追加する。
  • 提案手法はGRPOの対照的再定式化をもたらし、複数のモデルとアルゴリズムに渡る数学的推論ベンチマークにおいて経験的改善を示し、コードはGitHubで公開されている。