要件に着目したカリキュラム強化学習でLLMのコード生成を改善する
arXiv cs.AI / 2026/5/4
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、LLMによるコード生成がソフトウェア開発の効率化に役立つ一方、プログラミング要件が複雑になるにつれて既存のLLMに性能上の制約が残ると主張している。
- 先行するカリキュラム強化学習(CRL)手法の課題として、要件難易度の認識ミス、難易度の最適化不足、カリキュラムのサンプリング戦略の不十分さを挙げている。
- 提案手法RECRL(要件に着目したCRL)は、モデルごとに要件の難易度を自動推定し、難しい要件を最適化し、難易度が滑らかに変化するようにバッチを構成するための適応的サンプリングを用いる。
- 5つの最先端LLMと5つの一般的なコード生成ベンチマークでの実験では、RECRLが一貫して性能を改善し、全ベースラインに対するPass@1の平均向上が1.23%〜5.62%であることを示した。
- 本手法はソフトウェア要件工学の知見に動機づけられており、CRLベースのコード生成では要件が唯一の入力となるため、要件の品質と難易度が学習効果に決定的に重要であると強調している。



