Critique-Coder: Critique Reinforcement Learningによるコーダーモデルの強化
arXiv cs.CL / 2026/3/13
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- Critique Reinforcement Learning (CRL) を提案し、LLMs に対して与えられた(質問、解答)ペアの批評を生成するよう明示的に訓練する。報酬は、生成された最終判断が正解と一致するかどうかのみで決定される。
- 本論文は Critique-Coder を導入し、標準 RL データの 20% を CRL データに置換してモデルをファインチューニングするハイブリッド RL/CRL アプローチであり、RL のみのベースラインを上回る改善を実現する。
- 実験では Critique-Coder-8B が LiveCodeBench (v5) で 60% を超える達成率を示し、DeepCoder-14B や GPT-o1 のような他の推論モデルを上回り、BBEH データセットの論理推論も改善する。
- 著者らは、コーディングデータセットへの CRL の適用が一般的な推論能力と批評能力を高め、コード生成を超えた広い転移性を示唆し、LLM の推論に対する標準 RL の補完として CRL を位置づけている。
本文: arXiv:2509.22824v2 発表タイプ: replace
概要: 要約: 強化学習(RL)は、推論モデルと組み合わせると特に人気のある訓練パラダイムとして浮上してきた。効果的である一方、主に応答の生成に焦点を当て、批評や反省を明示的に促す仕組みを欠く。Critique-Fine-Tuning(CFT)や Critique-Guided-Distillation(CGD) のようないくつかの最近の研究は、LLM に対して批評の方法を明示的に教えることの利点を示している。これらに動機づけられ、我々は Critique Reinforcement Learning(CRL)を提案する。CRL では、モデルは与えられた(質問、解答)ペアに対して批評を生成する任務を課される。報酬は、生成された批評の最終判断ラベルが真の判断と一致するかどうかのみによって決定される。これを踏まえ、Critique-Coder を導入する。Critique-Coder は標準 RL データの 20% を CRL データに置換したハイブリッド RL/CRL で訓練される。複数のモデル(Critique-Coder)をファインチューニングし、さまざまなベンチマークで RL のみのモデルより有利であることを示す。Critique-Coder は、評価したすべてのベンチマークにおいて RL のみのベースラインを一貫して上回ることを示す。特に、Critique-Coder-8B は LiveCodeBench(v5)で 60% 以上に到達し、DeepCoder-14B や GPT-o1 のような他の推論モデルを上回る。コード生成を超えて、Critique-Coder は一般的な推論能力の向上も示しており、BBEH データセットの論理推論タスクでの性能改善によって裏付けられる。これにより、コーディングデータセットへの CRL の適用が一般的な推論と批評能力を高め、幅広いタスクに渡って転移可能であることを示唆している。したがって、CRL は LLM の推論に対する標準 RL の優れた補完として機能する、と我々は信じている。
