要旨: これまでのLLMベースの強化学習(RL)研究は、通常、(1) 高い注釈コストを伴う教師あり学習、または(2) 投票やエントロピーに基づく報酬を用いる教師なしパラダイムのいずれかに従っていました。しかし、注釈コストが大きいことに加えて、モデルの崩壊(model collapse)や報酬ハッキング(reward hacking)といった問題があるため、性能はいまだ十分とは言えません。これらの課題に対処するため、認知学習理論に着想を得た新しい視点を導入し、EasyRLと呼ぶ新しい手法を提案します。EasyRLの中核は、難易度の高い教師なしデータを、ますます困難なものへと段階的に扱う進行型の分割統治(divide-and-conquer)戦略と、簡単にラベル付けできるデータからの信頼性の高い知識移転を統合することで、人間の認知獲得曲線をシミュレートすることです。具体的には、まず少数ショットのラベル付きデータを用いた教師ありRLでウォームアップモデルを初期化します。次に、難しい教師なしデータに対して分割統治型の擬似ラベリング戦略を適用し、不確実性が低いケースでは一貫性に基づく選択を行い、不確実性が中程度のケースでは反省(reflection)に基づく解決を行います。最後に、反復的な擬似ラベル付けとRLによる難易度進行型の自己訓練を行うことで、モデルの推論能力をさらに強化します。EasyRLは、LLMのデータ効率の良い事後学習を可能にする、統一的で自己進化型の枠組みを提供します。数学および科学のベンチマークに対する実験結果から、EasyRLは簡単なラベル付きデータの10%のみを用いて、最先端のベースラインを一貫して上回ることが示されました。
「簡単なサンプルで十分」:データ効率の高い強化学習による自己進化型LLM
arXiv cs.AI / 2026/4/22
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、従来のLLMベース強化学習の研究が、注釈コストの高さやモデル崩壊・リワードハッキングといった問題により十分な性能が得られにくいと主張しています。
- EasyRLと呼ばれる自己進化フレームワークを提案し、少量の「簡単な」ラベル付きデータから確実な知識移転を行い、より難しい未ラベルデータへ段階的に取り組むことで、人間の認知学習のカーブを模倣します。
- EasyRLは、まず少数ショットのラベル付きデータでウォームアップ(教師ありRL)を行い、その後、分割統治的な疑似ラベリングを実施します。低不確実性は一貫性ベースの選択、中不確実性はリフレクション(反省)ベースの解決で扱います。
- 最後に、反復的な疑似ラベリングと追加のRLによる難易度進行型の自己学習を行い、推論能力を強化します。
- 数学・科学ベンチマークでの実験では、簡単なラベル付きデータの10%だけを使用しても、EasyRLが既存の最先端ベースラインを一貫して上回ることが示されています。



