自己進化を学ぶ
arXiv cs.CL / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は Learning to Self-Evolve (LSE) という自己進化を学ぶための強化学習フレームワークを提案します。LSE は多段階の進化問題を単一ステップの RL 目的として再定式化することで、テスト時に自己の文脈を改善するよう大規模言語モデルを訓練する強化学習フレームワークです。
- ツリーガイド型の進化ループを用い、下流の性能改善に基づいて文脈編集を報酬することで、推論時の反復的な自己改善を可能にします。
- Text-to-SQL (BIRD) および一般的な質問応答 (MMLU-Redux) の実験で、LSE によって訓練された 4B パラメータのモデルは、GPT-5 および Claude Sonnet 4.5 による自己進化ポリシーや GEPA、TextGrad といったプロンプト最適化手法を上回りました。
- 結果は、LSE が追加の訓練なしに他のモデルを導くために転用できる可能性を示唆しており、自己進化を広い適用性を持つ学習可能なスキルとして浮き彫りにしています。




