SAGE: LLM推論のためのマルチエージェント自己進化

arXiv cs.AI / 2026/3/17

📰 ニュースModels & Research

共有:

要点

SAGE は、Challenger、Planner、Solver、Critic の4つの役割が、共有された LLM のバックボーンを用い、わずかなシードセットのみで共進化する閉ループ型のマルチエージェントフレームワークを導入します。
Challenger は段階的に難易度の高いタスクを生成し、Planner はタスクを構造化された多段階の計画へと変換し、Solver がその計画を実行し、Critic が結果を評価・フィルタリングしてカリキュラムのドリフトを防ぎ、信号品質を維持します。
本手法は、数学とコード生成のベンチマークで一貫した改善を示しており、Qwen-2.5-7B モデルでは LiveCodeBench が 8.9%、OlympiadBench が 10.7% の改善が報告されています。
検証可能な報酬と外部検証者を用いた自己訓練に依存することで、SAGE は大規模なラベル付きデータセットへの依存を低減しつつ、長期的な推論の安定性を向上させます。

概要：検証可能な報酬を用いた強化学習は大規模言語モデル（LLMs）の推論を改善しますが、多くの手法は依然として大規模な人間ラベル付きデータセットに依存しています。自己対戦はこの依存を低減しますが、それはしばしば明示的な計画と強力な品質管理を欠くことが多く、長期的な多段階推論の安定性を制限します。我々はSAGE（Self-evolving Agents for Generalized reasoning Evolution）を提案します。これは、Challenger、Planner、Solver、Critic の4つのエージェントが、共通のLLMバックボーンから、わずかなシードセットだけを使用して共進化する閉ループフレームワークです。Challengerは継続的にますます難しいタスクを生成します； Plannerは各タスクを構造化された多段階計画に変換します；そしてSolverは計画に従って回答を生成し、その正確性は外部検証者によって決定されます。Criticは生成された質問と計画の両方を評価・フィルタリングし、カリキュラムドリフトを防ぎ、トレーニング信号の品質を維持します。これにより安定した自己学習を可能にします。数学とコード生成のベンチマーク全体にわたって、SAGE はモデルスケールを超えて一貫した利益をもたらし、LiveCodeBench で Qwen-2.5-7B モデルを 8.9%、OlympiadBench で 10.7% 向上させました。

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

信頼度推定・自己評価・自動ウェブリサーチを備えた不確実性を考慮したLLMシステムを構築するためのコーディング実装

MarkTechPost

DNA Memory: AIエージェントを人間の脳のように学習・忘却・進化させる

Dev.to

Tinybox - オフラインAIデバイス、1200億パラメータ

Hacker News

SAGE: LLM推論のためのマルチエージェント自己進化

要点

関連記事

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

信頼度推定・自己評価・自動ウェブリサーチを備えた不確実性を考慮したLLMシステムを構築するためのコーディング実装

DNA Memory: AIエージェントを人間の脳のように学習・忘却・進化させる

Tinybox - オフラインAIデバイス、1200億パラメータ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer