正解と誤りが出会うとき: GRPOのための報酬-信頼度補正を用いた双方向コンテキスト条件付け

arXiv cs.AI / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論はグループ相対ポリシー最適化（GRPO）を再検討し、GRPOが各出力を独立したサンプルとして扱うため、同じグループ内における正解と誤答の対比を見逃している点を指摘する。
双方向コンテキスト条件付け（BICC）を導入し、追加のサンプリングや補助モデルを必要とせずに、最適化中に成功した推論経路と failedした推論経路を相互参照できるようにする。
訓練を安定化させるため、第一階の分散最小化推定量に基づく報酬-信頼度共分散を用いてアドバンテージのベースラインを動的に調整する、報酬-信頼度補正（RCC）を追加する。
提案手法はGRPOの対照的再定式化をもたらし、複数のモデルとアルゴリズムに渡る数学的推論ベンチマークにおいて経験的改善を示し、コードはGitHubで公開されている。

note

note

note

note

note