Critique-Coder: Critique Reinforcement Learningによるコーダーモデルの強化

arXiv cs.CL / 2026/3/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

Critique Reinforcement Learning (CRL) を提案し、LLMs に対して与えられた（質問、解答）ペアの批評を生成するよう明示的に訓練する。報酬は、生成された最終判断が正解と一致するかどうかのみで決定される。
本論文は Critique-Coder を導入し、標準 RL データの 20% を CRL データに置換してモデルをファインチューニングするハイブリッド RL/CRL アプローチであり、RL のみのベースラインを上回る改善を実現する。
実験では Critique-Coder-8B が LiveCodeBench (v5) で 60% を超える達成率を示し、DeepCoder-14B や GPT-o1 のような他の推論モデルを上回り、BBEH データセットの論理推論も改善する。
著者らは、コーディングデータセットへの CRL の適用が一般的な推論能力と批評能力を高め、コード生成を超えた広い転移性を示唆し、LLM の推論に対する標準 RL の補完として CRL を位置づけている。

本文: arXiv:2509.22824v2 発表タイプ: replace 概要: 要約: 強化学習（RL）は、推論モデルと組み合わせると特に人気のある訓練パラダイムとして浮上してきた。効果的である一方、主に応答の生成に焦点を当て、批評や反省を明示的に促す仕組みを欠く。Critique-Fine-Tuning（CFT）や Critique-Guided-Distillation（CGD）のようないくつかの最近の研究は、LLM に対して批評の方法を明示的に教えることの利点を示している。これらに動機づけられ、我々は Critique Reinforcement Learning（CRL）を提案する。CRL では、モデルは与えられた（質問、解答）ペアに対して批評を生成する任務を課される。報酬は、生成された批評の最終判断ラベルが真の判断と一致するかどうかのみによって決定される。これを踏まえ、Critique-Coder を導入する。Critique-Coder は標準 RL データの 20% を CRL データに置換したハイブリッド RL/CRL で訓練される。複数のモデル（Critique-Coder）をファインチューニングし、さまざまなベンチマークで RL のみのモデルより有利であることを示す。Critique-Coder は、評価したすべてのベンチマークにおいて RL のみのベースラインを一貫して上回ることを示す。特に、Critique-Coder-8B は LiveCodeBench（v5）で 60% 以上に到達し、DeepCoder-14B や GPT-o1 のような他の推論モデルを上回る。コード生成を超えて、Critique-Coder は一般的な推論能力の向上も示しており、BBEH データセットの論理推論タスクでの性能改善によって裏付けられる。これにより、コーディングデータセットへの CRL の適用が一般的な推論と批評能力を高め、幅広いタスクに渡って転移可能であることを示唆している。したがって、CRL は LLM の推論に対する標準 RL の優れた補完として機能する、と我々は信じている。

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

Dev.to

MCPスキルとMCPツール: サーバーを正しく構成する方法

Dev.to

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

Dev.to

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

Critique-Coder: Critique Reinforcement Learningによるコーダーモデルの強化

要点

関連記事

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

MCPスキルとMCPツール: サーバーを正しく構成する方法

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer