RoboPhD:厳しい評価予算下で多様で複雑なエージェントを進化させる

arXiv cs.AI / 2026/4/7

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、評価コストが高い状況で、LLM に導かれるエージェント進化において最適な最適化アルゴリズムをどのように選ぶかを、評価回数 1,500 に固定した予算のもとで扱う。
  • RoboPhD の Elo トーナメント選択、GEPA の Pareto(パレート)に基づく選択、Autoresearch の貪欲な hill-climbing(ヒルクライミング)という 3 つのパラダイムについて、4 つのベンチマーク(抽象推論、クラウド・スケジューリング、SQL 生成、金融 QA)で初めて体系的な比較を示す。
  • RoboPhD の主要な貢献は「validation-free evolution(検証なし進化)」であり、学習データ上での Elo 競争を用いて、エージェントの質を評価しつつ、同一の予算の範囲内で進化プロセス自体も駆動する。
  • すべてのベンチマークにおいて、単一のデフォルト設定により、RoboPhD は 4 タスク中 3 タスクで GEPA と Autoresearch を上回る。特に Gemini 3.1 Flash Lite を用いた ARC-AGI が 27.8% から 65.8% に大きく改善される。
  • 著者らは、自己診断用のコード成長(self-instrumenting diagnostic code growth)により多様で複雑なエージェントを進化させるための MIT ライセンスのツールキット「RoboPhD」を公開し、optimize_anything() API を提供する。

概要: 2026年は、GEPAやAutoresearchのようなシステムによって、LLMが多様な領域にわたってプロンプト、コード、エージェントのアーキテクチャを反復的に改善できることが示され、エージェンティック成果物のLLMによる進化(LLM-guided evolution)への関心が爆発的に高まった年となりました。導入が加速するにつれて、次の中心的な問いが生まれます――同じ情報、同じシードとなるエージェント、同じ目的が与えられたとき、同じ評価予算のもとで、どの最適化アルゴリズムが最良の結果をもたらすのか? この問いは、評価が高コストな場合、たとえば人間の判断を必要とするとき、あるいは複数回のLLM呼び出しを要するときに、特に重要になります。
本研究では、3つの最適化パラダイム――Eloトーナメント選択(RoboPhD)、パレートに基づく選択(GEPA)、貪欲な山登り(Autoresearch)――を、抽象的推論、クラウドのスケジューリング、SQL生成、金融QAの4つのベンチマークにわたって、固定予算1,500回の評価のもとで、初の体系的な比較として提示します。RoboPhDは検証なしの進化を導入します。予算を訓練と検証に分割する代わりに、訓練データ上でEloによる競争を用いて、エージェントの評価と進化の推進を同時に行います。3つのシステムはいずれも、進化が成長させうる診断用のprint()文を含むシードエージェントを受け取ります。これにより、自分で計測できる(self-instrumenting)エージェントが、進化の後続者のために、より有益な診断情報をどんどん生成するようになります。
デフォルト設定1つだけを用いて検証したところ、RoboPhDは4つのベンチマーク中3つでGEPAとAutoresearchの両方を上回り、最も単純な課題でのみ負けました。そこでは、勝利した解(我々のAutoresearch適応に由来)が90行未満のコードで必要でした。ARC-AGIにおいて、RoboPhDは22行のシードエージェントを、1,013行のマルチ戦略システムへと進化させ、Gemini 3.1 Flash Liteを解答器(solver)として、精度を27.8%から65.8%へと改善しました。我々は、MITライセンスのもとでRoboPhDを、さまざまな複雑なエージェントを進化させるためのシンプルなoptimize_anything() APIとして、汎用的なツールキットとして公開します。