自己進化を学ぶ

arXiv cs.CL / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は Learning to Self-Evolve (LSE) という自己進化を学ぶための強化学習フレームワークを提案します。LSE は多段階の進化問題を単一ステップの RL 目的として再定式化することで、テスト時に自己の文脈を改善するよう大規模言語モデルを訓練する強化学習フレームワークです。
ツリーガイド型の進化ループを用い、下流の性能改善に基づいて文脈編集を報酬することで、推論時の反復的な自己改善を可能にします。
Text-to-SQL (BIRD) および一般的な質問応答 (MMLU-Redux) の実験で、LSE によって訓練された 4B パラメータのモデルは、GPT-5 および Claude Sonnet 4.5 による自己進化ポリシーや GEPA、TextGrad といったプロンプト最適化手法を上回りました。
結果は、LSE が追加の訓練なしに他のモデルを導くために転用できる可能性を示唆しており、自己進化を広い適用性を持つ学習可能なスキルとして浮き彫りにしています。

Abstract

私たちは Learning to Self-Evolve (LSE) を導入します。これは大規模言語モデル（LLM）をテスト時に自身の文脈を改善するよう訓練する強化学習フレームワークです。私たちは LSE をテスト時自己進化の設定に位置づけ、モデルが見た問題からのフィードバックを元に文脈を反復的に洗練させ、新しい問題に対してより良く機能するようにします。既存のアプローチはモデルの固有の推論能力のみに依存し、このタスクのために明示的に訓練することはありません。LSE は多段階の進化問題を単一の RL 目的へ還元し、各文脈編集は下流の性能の改善によって報酬を得ます。この目的をツリーガイド付きの進化ループと組み合わせます。Text-to-SQL 生成（BIRD）および一般的な質問応答（MMLU-Redux）では、LSE で訓練された 4B パラメータのモデルが、GPT-5 および Claude Sonnet 4.5 による自己進化ポリシー、GEPA および TextGrad を含むプロンプト最適化手法を上回り、追加の訓練なしで他のモデルを導くための転移を可能にします。私たちの結果は、自己進化を学習可能なスキルとして扱うことの有効性を強調します。