要件に着目したカリキュラム強化学習でLLMのコード生成を改善する

arXiv cs.AI / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、LLMによるコード生成がソフトウェア開発の効率化に役立つ一方、プログラミング要件が複雑になるにつれて既存のLLMに性能上の制約が残ると主張している。
  • 先行するカリキュラム強化学習(CRL)手法の課題として、要件難易度の認識ミス、難易度の最適化不足、カリキュラムのサンプリング戦略の不十分さを挙げている。
  • 提案手法RECRL(要件に着目したCRL)は、モデルごとに要件の難易度を自動推定し、難しい要件を最適化し、難易度が滑らかに変化するようにバッチを構成するための適応的サンプリングを用いる。
  • 5つの最先端LLMと5つの一般的なコード生成ベンチマークでの実験では、RECRLが一貫して性能を改善し、全ベースラインに対するPass@1の平均向上が1.23%〜5.62%であることを示した。
  • 本手法はソフトウェア要件工学の知見に動機づけられており、CRLベースのコード生成では要件が唯一の入力となるため、要件の品質と難易度が学習効果に決定的に重要であると強調している。

Abstract

指定されたプログラミング要件から、ソースコードを自動的に生成することを目的とするコード生成は、ソフトウェア開発効率を大幅に向上させる可能性を持っている。大規模言語モデル(LLM)の急速な進歩に伴い、LLMに基づくコード生成は、学術界と産業界の両方から広く注目を集めている。だが、プログラミング要件がますます複雑になるにつれて、既存のLLMにはなお顕著な性能上の制約が見られる。この課題に対処するため、近年の研究では、LLMのコード生成性能を向上させるための学習ベースのカリキュラム強化学習(CRL)戦略が提案されている。これらは有効である一方で、既存のCRLアプローチには、要件の難易度に関する認識の不一致、要件難易度の最適化の欠如、そしてカリキュラムのサンプリング戦略の不適切さ、といったいくつかの制限がある。CRLに基づくコード生成では、プログラミング要件がモデルへの唯一の入力となるため、その品質と難易度が学習の有効性にとって極めて重要である。ソフトウェア要求工学から得られた洞察に動機づけられ、我々は、LLMベースのコード生成を強化するための、新しい「要件を意識した」カリキュラム強化学習フレームワークであるRECRLを提案する。RECRLは、モデル固有の要件難易度を自動的に把握し、挑戦的な要件を最適化することで学習データの利用効率を高め、さらに、難易度が滑らかに変化するトレーニングバッチを構築するために適応的なカリキュラム・サンプリング戦略を採用する。5つの代表的なコード生成ベンチマークにおける、最先端のLLMを5つ対象とした大規模な実験を、最先端のベースライン5つとの比較により行った結果、RECRLの顕著な有効性が示された。例えば、RECRLは、すべての最先端ベースラインに対して、平均Pass@1が1.23%-5.62%向上する。