概要:検証可能な報酬を用いた強化学習は大規模言語モデル(LLMs)の推論を改善しますが、多くの手法は依然として大規模な人間ラベル付きデータセットに依存しています。自己対戦はこの依存を低減しますが、それはしばしば明示的な計画と強力な品質管理を欠くことが多く、長期的な多段階推論の安定性を制限します。我々はSAGE(Self-evolving Agents for Generalized reasoning Evolution)を提案します。これは、Challenger、Planner、Solver、Critic の4つのエージェントが、共通のLLMバックボーンから、わずかなシードセットだけを使用して共進化する閉ループフレームワークです。Challengerは継続的にますます難しいタスクを生成します; Plannerは各タスクを構造化された多段階計画に変換します;そしてSolverは計画に従って回答を生成し、その正確性は外部検証者によって決定されます。Criticは生成された質問と計画の両方を評価・フィルタリングし、カリキュラムドリフトを防ぎ、トレーニング信号の品質を維持します。これにより安定した自己学習を可能にします。数学とコード生成のベンチマーク全体にわたって、SAGE はモデルスケールを超えて一貫した利益をもたらし、LiveCodeBench で Qwen-2.5-7B モデルを 8.9%、OlympiadBench で 10.7% 向上させました。
SAGE: LLM推論のためのマルチエージェント自己進化
arXiv cs.AI / 2026/3/17
📰 ニュースModels & Research
要点
- SAGE は、Challenger、Planner、Solver、Critic の4つの役割が、共有された LLM のバックボーンを用い、わずかなシードセットのみで共進化する閉ループ型のマルチエージェントフレームワークを導入します。
- Challenger は段階的に難易度の高いタスクを生成し、Planner はタスクを構造化された多段階の計画へと変換し、Solver がその計画を実行し、Critic が結果を評価・フィルタリングしてカリキュラムのドリフトを防ぎ、信号品質を維持します。
- 本手法は、数学とコード生成のベンチマークで一貫した改善を示しており、Qwen-2.5-7B モデルでは LiveCodeBench が 8.9%、OlympiadBench が 10.7% の改善が報告されています。
- 検証可能な報酬と外部検証者を用いた自己訓練に依存することで、SAGE は大規模なラベル付きデータセットへの依存を低減しつつ、長期的な推論の安定性を向上させます。