RefineRL：自己洗練型強化学習で競技プログラミングを前進させる

arXiv cs.AI / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文ではRefineRLを提案し、単発の解答生成ではなく反復的な自己洗練を活用することで、競技プログラミングにおけるLLMの性能向上を目指す。
RefineRLのSkeptical-Agentは、公開されているテストケースに対するローカル実行・検証を行いながら、自身の出力に対して懐疑的な姿勢を維持し、それによってより厳密な洗練を促す。
また、強化学習（RL）に基づく学習手法として、検証可能な解答を持つ通常のRLVRデータのみを用いて自己洗練を促し、専門的な追加監督を必要としない方法を提案する。
Qwen3-4BおよびQwen3-4B-2507での実験では、Skeptical-Agentを用いてRLで学習した4Bモデルが、より大規模な32Bモデルを上回り、235Bモデルの単発回答時の性能に近づくことが示されており、洗練ベース推論のスケーリングに強い可能性があることが示唆される。

要旨: 大規模言語モデル（LLM）は、競技プログラミング（CP）のような複雑な推論タスクにおいて強力な性能を示しているものの、既存の手法は主として単一試行の設定に焦点を当てており、反復的な洗練（iterative refinement）が可能であるという能力を見落としています。本論文では、CP問題解決のためにLLMの自己洗練能力を解き放つことを目的とした新しいアプローチRefineRLを提案します。RefineRLは、2つの重要な革新を導入します。（1）疑義エージェント（Skeptical-Agent）: CP問題の公開テストケースに対して生成された解答を検証するためのローカル実行ツールを備えた、反復的な自己洗練エージェントです。このエージェントは常に自らの出力に対して懐疑的な態度を維持するため、検証によって正しいと示される場合でも、厳密な自己洗練が強制されます。（2）標準的なRLVRデータ（すなわち、検証可能な解答が対になっている問題）だけを用いて、LLMに自己洗練を促す強化学習（RL）による解法です。Qwen3-4BおよびQwen3-4B-2507に対する大規模な実験により、本手法が大きな改善をもたらすことが示されています。すなわち、RLトレーニング後、Skeptical-Agentを組み込んだこれらのコンパクトな4Bモデルは、はるかに大きい32Bモデルに勝るだけでなく、235Bモデルの単一試行性能にも近づきます。これらの結果は、自己洗練がLLM推論のスケーリングに対して大きな可能性を持つことを示唆しており、さらなる発展が見込まれます。