合成データとカリキュラムによるコード生成のための強化学習(RL)をスケールするための深掘り

arXiv cs.LG / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、コード生成における強化学習(RL)のスケーリングを探究し、性能の限界は生データ量よりもデータの多様性や構造に起因する、という主張を行っている。
  • 「教師」モデルが、学生モデルの性能に関するインコンテキスト要約を用いてタスクを反復的に洗練させることで、教師のファインチューニングなしにスケーラブルなマルチターン合成データ生成パイプラインを導入する。
  • 単発(シングルターン)生成と比べて、マルチターン手法はより有効な合成問題を生み出し、カリキュラムベースのRL学習を可能にする構造化された難易度の進行(「踏み石」)を形成する。
  • Llama3.1-8B Instruct と Qwen3-8B Base(さらに Qwen2.5-32B での追加実験)を対象に、タスクの難しさ、カリキュラムのスケジューリング、環境の多様性が、RL学習のダイナミクスにどのように連動して影響するかを分析する。
  • 結果として、合成によるデータ拡張はドメイン内のコード性能を改善し、多くの場合でドメイン外の数学性能も押し上げることが示されており、カリキュラム設計と多様性設計に関する実証的な指針が得られる。