AI Navigate

コード生成における GRPO の実行に基づくクレジット割り当て

arXiv cs.LG / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 著者らは、コード生成における critic-free RL における粗いクレジット割り当ての問題点を、エラーがグローバルではなく局所化できることを強調して指摘する。
  • 著者らは Execution-Grounded Credit Assignment (EGCA) を提案する。これは、実行トレースを用いて GRPO の更新を最も早い意味的分岐点に対応するトークン範囲へ局在化する。
  • EGCA は、候補コードと標準的なリファレンス解を同一の計測機構のもとで実行して、どこで失敗が生じるかを特定し、下流のトークンをマスクして目的のクレジットを割り当てる。
  • これはクリティック、補助損失、または学習済み検証器を必要としないドロップインの改変であり、HumanEval と MBPP でそれぞれ 82.1% の pass@1、68.9% の達成率を達成する(オーバーヘッドは約 18%)。
  • このアプローチは、グローバルな成果ではなく実行トレースにクレジットを結びつけることで、RL ベースのコード生成を改善する一般的な方法を示唆する。

要約: 検証可能な報酬を伴う批評家なし強化学習(RLVR)は、単体テストの合格率を最適化することでコード生成を改善しますが、GRPO風の更新は粗いクレジット割り当てに悩まされます。単一の成果信号が長いプログラム全体に一様に広がり、失敗が局所的な意味的エラーに起因する場合でも同様です。私たちは、実行トレースを用いてGRPOの更新を局所化する Execution-Grounded Credit Assignment(EGCA)を提案します。アルゴリズム的制約を満たすがテストに失敗するプログラムについて、EGCAは候補プログラムと正準参照解(オフラインで一度だけ整理された分析用のもの、監督には使用されません)を同一の計測機構の下で実行し、最も早い意味的乖離を特定し、対応するトークン範囲のみにアドバンテージを割り当て、下流のトークンをマスクします。EGCAは批評家、補助損失、学習済み検証器を必要としないドロップイン変更であり、HumanEvalで82.1%のpass@1を達成(GRPOより3.1ポイント向上)し、MBPPで68.9%を達成(+1.5ポイント)、ウォールクロックのオーバーヘッドは18%です。